Data Science

  • 用简单和高级的技术来填补缺失的数据

    有关均值、众数、时间序列、KNN 和 MICE 插补的教程——当数据集中没有为感兴趣的变量存储数据时,就会出现缺失数据。根据其数量,缺失数据可能会损害任何数据分析的结果或机器学习模型的稳健性。在使用 Python 处理丢失的数据时,Pandas 的 dropna() 函数来了……

    技术文章 2022年5月13日
    4460
  • 控制谁可以访问您的 Streamlit 仪表板

    让 Django 的权限系统负责授权控制——身份验证可能会阻止外人,但我们需要一个授权流程来控制谁可以看到什么。 Steramlit 简化了数据科学家最大的困难之一——构建一个应用程序来与他们的机器学习模型进行交互。它提供了一组声明性方法来创建 Web 组件。但是安全…

    技术文章 2022年5月13日
    9010
  • 你应该知道的 3 个不常见的 Pandas 技巧

    充分利用 Pandas — 如果您正在阅读本文,那么您一定听说过或使用过 Pandas。因此,我将跳过我谈论 Pandas 有多棒的部分。 😊 在本文中,我们将通过示例演示一些不常用的 Pandas 功能。 …

    技术文章 2022年5月13日
    3890
  • Python Pandas 中的数据清理入门

    使用流行的 Python 库执行数据清理的实际示例。 — 数据清理是处理数据时的强制性步骤之一。事实上,在大多数情况下,您的数据集是脏的,因为它可能包含缺失值、重复项、错误格式等。在没有清理数据之前运行数据分析可能会导致错误的结果,并且在大多数情况下……

    技术文章 2022年5月12日
    5090
  • LinkedIn:您永远不知道的最佳示例数据源

    使用本指南了解和浏览 LinkedIn 允许您从您的个人资料下载的数据 — TLDR:本文不是关于网络抓取的。它使用 LinkedIn 的授权“获取您的数据副本”服务来演示如何将这些数据用于培训、测试和演示目的。概述 本文将向读者介绍 LinkedIn 的“获取数据副本”服务,并探讨如何……

    技术文章 2022年5月12日
    3920
  • 定义数据学科中的角色分类

    他们的工作及其主要职责——我们生成的数据量呈指数级增长,为数个机会打开了大门。 “数据是新的石油,”你经常在现代商业活动中听到,而企业一直在采取行动。 …

    技术文章 2022年5月12日
    2260
  • 使用 nflfastpy 和 Plotly 分析和绘制 NFL 数据

    使用 nflfastpy 从 NFL 逐场比赛数据创建可视化——我是旧金山 49 人队的忠实粉丝,也是数据可视化爱好者,所以我一直在寻找将体育数据与数据科学和分析相结合的机会。对我们来说幸运的是,有一个很棒的 Python 包,叫做 nflfastpy,它是 R 包 nflfastR 的镜像,它允许我们……

    技术文章 2022年5月12日
    2520
  • 面向数据科学家的使用 Conda 的 Python 虚拟环境综合指南

    通过终端使用 Conda 的虚拟环境指南——本文将是数据科学家使用 Conda 为您的项目创建、导出和使用虚拟环境的综合指南。本教程将专门针对 Python 虚拟环境。以下概述了文章的结构。目录 什么是 Conda 虚拟环境?为什么要使用虚拟…

    技术文章 2022年5月11日
    2290
  • 教 LightGBM 如何数到 10

    它能有多难? — LightGBM 是一种强大的机器学习算法。但它可以数到 10 吗? LightGBM 可以说是用于表格数据的最佳算法。这是一种聪明的方法,也是许多机器学习竞赛获胜解决方案的支柱。 LightGBM 还提供时间序列数据。 …

    技术文章 2022年5月11日
    2380
  • 卡方分布简单解释

    卡方分布及其起源的简单解释 — 简介 在我之前的文章中,我们推导并讨论了 Gamma 分布,您可以在此处查看:Gamma Distribution Simply Explained An explanation of the Gamma Distribution and its originstowardsdatascience.com 在此帖子中,我们将解释 Gamma 分布的一个特殊情况,即卡方分布。这种分布在统计学中无处不在,甚至有自己的测试,经常用于……

    技术文章 2022年5月11日
    3710