按时间归档:2022年06月
-
数据科学的特征选择:简单的方法
通过摆脱与我们的数据集无关的特征,我们可以创建更好的预测模型。 — 每个数据科学家都面临或将遇到这个问题;一个巨大的数据集,包含如此多的特征,他们甚至不知道从哪里开始。虽然有许多高级方法可用于为数据集选择最佳特征集合,但有时简单的方法……
-
解释 SQL 查询以获得更好的性能
窥探数据库查询执行引擎——背景数据分析师和数据工程师面临的最常见问题之一是非性能查询,通常称为慢查询。这些查询很慢,通常不是因为处理查询的资源短缺,而是因为您编写的查询效率低下,使用了更多……
-
作为数据分析师平衡战术和战略任务
如何在不烧毁业务成果的情况下最大化业务成果——在将数据与业务成果联系起来时,数据分析师发挥着最关键的作用。他们通常是数据团队中唯一既了解数据上下文又了解业务上下文的人。根据我的经验,在典型的一天,数据分析师会被拉入多个……
-
使用 mlr 在 R 中进行决策树超参数调整
学习如何使用 mlr 在 R 中执行超参数网格搜索——许多人通过学习和应用决策树算法进入数据科学之旅。这并不奇怪,因为该算法可能是最容易解释的算法,并且可以很好地模仿人类决策。理解决策树还有另一个巨大的优势:它们是最著名的提升的基础……
-
为什么不使用 CNN 来提取特征?
如何在你的数据中发现意想不到的模式——意想不到的美好。就在你认为你已经把一切都弄清楚的时候,一些新的东西突然出现并让你陷入困境。数据分析也是如此。当您查看数据集,试图寻找模式和趋势时,有时您会……
-
如何在 Python 中将图像添加到 Matplotlib 图中
使用 Matplotlib 读取图像数据并将其添加到绘图中——将外部图像或图标添加到现有绘图中不仅可以增加美感,还可以从整体角度增加其清晰度。外部图像可以是公司或产品的徽标、国家/地区的国旗等。这些图像有助于巩固所传达的信息……
-
如何为数据科学家编写好的代码文档
有关确保每个人都理解您编写的代码所需的最佳实践的速成课程。 — 编写良好代码文档的数据科学家很像工程师,确保支撑桥梁的支柱能够承受桥梁本身和使用它的乘客的重量。代码文档不仅提供了代码功能的概念,而且还提供了…
-
初学者使用 PySpark 处理数据
从 Pandas 用户的角度来看 PySpark 入门 – Pandas 库是数据科学家武器库的主要内容,由于其功能和易用性,许多人开始依赖该模块进行数据处理。不幸的是,Pandas 在处理大数据方面存在不足,随着大数据变得越来越普遍,这带来了一个问题。 …
-
用 Python 模拟一个微型太阳系
使用 Matplotlib 中的真实质量、距离和速度数据模拟一个包含太阳、地球、火星和未知彗星的微型太阳系——我对 PCA(主成分分析)感到惊讶,并考虑使用动画来展示机器学习过程.当我设法为图表制作动画时,我很想为一些很酷的东西制作动画。我想到的第一个很酷的东西是太阳系。这篇文章也是……
-
创建多层感知器 (MLP) 分类器模型以识别手写数字
神经网络和深度学习课程:第 16 部分——现在,我们已经熟悉了神经网络的大部分基础知识,正如我们在前面部分中讨论的那样。是时候利用我们的知识为实际应用构建神经网络模型了。多层感知器 (MLP) 是神经网络架构中最基本的类型……