Data Science

  • 如何处理数据科学中的缺失值

    处理 DS 项目中缺失值的三种实用方法 — 在处理真实数据时,您可能经常会在数据框中发现缺失值。发生这种情况可能有几个原因,例如:某些测量可能会丢失缺少信息记录错误所以问题是:如何处理丢失的数据?我们可以接受 0 作为值吗?

    2022年6月14日
    1940
  • 数据漂移可解释性:使用 NannyML 进行可解释的移位检测

    提醒有意义的多变量漂移并确保数据质量——模型监控正在成为机器学习的热门趋势。随着有关 MLOps 活动的新月炒作,我们记录了有关该主题的工具和研究的兴起。其中最有趣的肯定是 NannyML 开发的基于置信度的性能估计 (CBPE) 算法。他们实施了……

    2022年6月14日
    2700
  • 在 Kaggle 比赛中崛起的 3 大非机器学习技能

    数据、创造力和策略会让你登上排行榜——这听起来可能违反直觉。但是,在 Kaggle 等机器学习竞赛中,让你比其他人更有优势的关键技能可能不是机器学习。你对机器学习算法的了解只是你在 Kaggle 中需要的基本技能。应用不同的算法、集成和超参数优化是……

    2022年6月14日
    2550
  • 神经网络的实际工作原理——Python 实现第 2 部分(简化)

    在本文中,我们继续揭穿神经网络是一个我们不太了解它是如何工作的黑匣子的理论。我们的目标是以易于理解的方式实现神经网络。如果有些概念不能立即理解,请查看之前的文章……

    技术文章 2022年6月14日
    2090
  • ML 模型在生产中面临的 3 大挑战

    这些不应该被忽视。 — 很大一部分机器学习 (ML) 模型从未投入生产。在 Jupyter notebook 中创建模型是一回事,但将其部署到生产环境中并将其作为持续服务进行维护则是另一回事。这是一个涉及许多相互关联的步骤的过程……

    技术文章 2022年6月14日
    1850
  • 6种强大的学习技巧可帮助您掌握数据科学中最棘手的主题

    从费曼技术到莱特纳系统,本指南提供了一种学习技术,可以帮助每个人学习数据科学。 — 数据科学仍然是最受追捧的领域之一,但即使到 2000 年代的第二个十年,也是最难进入和掌握的领域。你听说过大学辍学生在三个月内学习编码,然后在一家 FAANG 公司以入门级薪水赚取 100,000 美元……

    2022年6月14日
    3910
  • 如何安装 Spark NLP

    有关如何使 Spark NLP 在本地计算机上运行的分步教程 — Apache Spark 是一个用于快速和通用数据处理的开源框架。它提供了一个统一的引擎,可以以快速和分布式的方式运行复杂的分析,包括机器学习。 Spark NLP 是一个 Apache Spark 模块,它为 Spark 应用程序提供高级自然语言处理 (NLP) 功能。它…

    2022年6月14日
    2810
  • 如何面试正在面试你的数据工作的公司

    在面试中利用最后 5 分钟的指南 – 1. 背景 – 面试不是单向的选择 开始新工作可能是令人兴奋的,同时也是令人恐惧的。在我之前的博客中,我谈到了在面试中谈论你的项目的 4 步方法。对于许多正在寻找新角色的人来说,开始新角色就像买了一个“神秘盒子”……

    技术文章 2022年5月13日
    2660
  • 使用 Power BI 从头开始​​构建您的第一个交互式仪表板

    从头到尾您需要了解的有关 Microsoft Power BI 的所有信息 — 这篇博文是我与位于墨尔本大学的学生经营的无偿咨询俱乐部 BusinessOne 的培训研讨会的两部分总结的第二部分.该研讨会旨在帮助 BusinessOne 的项目团队学习使用 Microsoft Excel 的基本数据清理技术,以及……

    技术文章 2022年5月13日
    3010
  • 聚光灯:精确聚类解释的视觉方法

    关于聚光灯、雷达图以及如何理解集群——理解集群的含义可能比制作集群更重要。制作集群的过程更注重数学,但是,解释集群并不简单。在这个故事中,您将看到一种解释集群的视觉方法。这里描述的视觉方法使用了两种视觉技术——……

    2022年5月13日
    2640