Data Science

用简单和高级的技术来填补缺失的数据

有关均值、众数、时间序列、KNN 和 MICE 插补的教程——当数据集中没有为感兴趣的变量存储数据时，就会出现缺失数据。根据其数量，缺失数据可能会损害任何数据分析的结果或机器学习模型的稳健性。在使用 Python 处理丢失的数据时，Pandas 的 dropna() 函数来了……

青葱年少

技术文章 2022年5月13日

44600

控制谁可以访问您的 Streamlit 仪表板

让 Django 的权限系统负责授权控制——身份验证可能会阻止外人，但我们需要一个授权流程来控制谁可以看到什么。 Steramlit 简化了数据科学家最大的困难之一——构建一个应用程序来与他们的机器学习模型进行交互。它提供了一组声明性方法来创建 Web 组件。但是安全…

心中带点小风骚

技术文章 2022年5月13日

90100

你应该知道的 3 个不常见的 Pandas 技巧

充分利用 Pandas — 如果您正在阅读本文，那么您一定听说过或使用过 Pandas。因此，我将跳过我谈论 Pandas 有多棒的部分。 😊 在本文中，我们将通过示例演示一些不常用的 Pandas 功能。 …

社会演员多

技术文章 2022年5月13日

38900

Python Pandas 中的数据清理入门

使用流行的 Python 库执行数据清理的实际示例。 — 数据清理是处理数据时的强制性步骤之一。事实上，在大多数情况下，您的数据集是脏的，因为它可能包含缺失值、重复项、错误格式等。在没有清理数据之前运行数据分析可能会导致错误的结果，并且在大多数情况下……

扎眼的阳光

技术文章 2022年5月12日

50900

LinkedIn：您永远不知道的最佳示例数据源

使用本指南了解和浏览 LinkedIn 允许您从您的个人资料下载的数据 — TLDR：本文不是关于网络抓取的。它使用 LinkedIn 的授权“获取您的数据副本”服务来演示如何将这些数据用于培训、测试和演示目的。概述本文将向读者介绍 LinkedIn 的“获取数据副本”服务，并探讨如何……

社会演员多

技术文章 2022年5月12日

39200

定义数据学科中的角色分类

他们的工作及其主要职责——我们生成的数据量呈指数级增长，为数个机会打开了大门。 “数据是新的石油，”你经常在现代商业活动中听到，而企业一直在采取行动。 …

扎眼的阳光

技术文章 2022年5月12日

22600

使用 nflfastpy 和 Plotly 分析和绘制 NFL 数据

使用 nflfastpy 从 NFL 逐场比赛数据创建可视化——我是旧金山 49 人队的忠实粉丝，也是数据可视化爱好者，所以我一直在寻找将体育数据与数据科学和分析相结合的机会。对我们来说幸运的是，有一个很棒的 Python 包，叫做 nflfastpy，它是 R 包 nflfastR 的镜像，它允许我们……

扎眼的阳光

技术文章 2022年5月12日

25200

面向数据科学家的使用 Conda 的 Python 虚拟环境综合指南

通过终端使用 Conda 的虚拟环境指南——本文将是数据科学家使用 Conda 为您的项目创建、导出和使用虚拟环境的综合指南。本教程将专门针对 Python 虚拟环境。以下概述了文章的结构。目录什么是 Conda 虚拟环境？为什么要使用虚拟…

社会演员多

技术文章 2022年5月11日

22900

教 LightGBM 如何数到 10

它能有多难？ — LightGBM 是一种强大的机器学习算法。但它可以数到 10 吗？ LightGBM 可以说是用于表格数据的最佳算法。这是一种聪明的方法，也是许多机器学习竞赛获胜解决方案的支柱。 LightGBM 还提供时间序列数据。 …

社会演员多

技术文章 2022年5月11日

23800

卡方分布及其起源的简单解释 — 简介在我之前的文章中，我们推导并讨论了 Gamma 分布，您可以在此处查看：Gamma Distribution Simply Explained An explanation of the Gamma Distribution and its originstowardsdatascience.com 在此帖子中，我们将解释 Gamma 分布的一个特殊情况，即卡方分布。这种分布在统计学中无处不在，甚至有自己的测试，经常用于……

青葱年少

技术文章 2022年5月11日

37100