接受社区贡献的数据科学项目

通过为开源软件做出贡献来培养您的技能并帮助他人。

TLDR：本文概述了如何选择您可能参与的开源项目。其中一个更加丰富多彩和令人兴奋的机会包括参考 Pandas-Profiling 的一个问题，该问题涉及一个建议新包名称的机会！

Introduction

为开源项目做贡献似乎是一个神秘的过程。为了揭开神秘面纱，我建议通读一期或多期。例如，这里是一个非技术性的问题，还显示了社区贡献如何作为协作和讨论工作。[0]

Overview

本文概述了三个接受社区贡献的开源软件项目。在回顾了与贡献开源项目相关的好处（对您和其他人的好处）之后，本文还提供了有关如何开始作为开源软件贡献者的有用信息。

在上一篇关于这个类似主题的文章中，我介绍了其他四个项目，我写道：[0]

成为数据科学家的最佳方式是成为数据科学家。提高数据科学水平的最佳方法是练习、练习、再练习。

为开源数据科学项目做贡献是一些最佳实践。作为上一篇文章的结果，我帮助少数读者与项目负责人建立了联系。

来自 opensource.guide（Github 托管网站）的一个聪明的建议是：[0]

如果您以前从未为开源做出过贡献，请听听美国总统约翰·肯尼迪 (John F. Kennedy) 的一些建议，他曾经说过：“不要问你的国家能为你做什么——问问你能为你的国家做什么。”

选择适合您的项目

需要明确的是，本文的建议并不是仅仅为了为开源项目做贡献而为开源项目做贡献。为开源项目做出有意义的贡献所需的时间、精力和才能并不是微不足道的。

这里的建议是考虑为开源软件项目做出重大贡献，但在对您有意义的情况下这样做。是故意的。在查看以下具体示例之前，请考虑：

考虑一个您经常使用的项目。选择您使用的项目将意味着您有兴趣使该项目为您自己的目的而运行良好。
阅读（并重新阅读）贡献者指南。大多数值得您花时间的项目都会发布贡献者指南。
请记住，贡献并不一定意味着您必须贡献代码。还有其他贡献方式。有时，贡献可以像测试或复制已知问题一样简单。其他非代码机会是更新包文档。
花时间了解项目的历史。了解项目的历史很重要，这样您就可以避免提交超出范围的更新或更改，或者其他人之前提交但未被接受的更新或更改。
熟悉项目的许可证。当您贡献时，请确保您了解许可证的工作原理以及这对您的贡献意味着什么。

SK Learn

SKLearn 或 Scikit-learn 可能是许多数据科学家最有用和最常用的机器学习库之一。这是一个开源项目，许多人已经为使其变得更好做出了贡献。分类、聚类、回归和降维只是 sklearn 工具包中用于机器学习和统计建模的一些有用功能。

SK Learn 的投稿指南网站直接表示：“这个项目是社区的努力，欢迎大家投稿。” SK Learn 清晰的治理指南和社区价值观对那些有兴趣做出贡献的人很有帮助。[0]

SK Learn 为新的贡献者提供了特定的资源。 SK Learn 对新贡献者的建议是关注 GitHub 问题跟踪器中标记为“好的第一个问题”、“简单”或“需要帮助”的问题。

这个包的 GitHub 问题跟踪器还包括一个“文档”标签。对于那些可能还没有准备好，或者只是不想贡献代码的人，您可以更新文档。编写和提出好的文档也是一种有意义的贡献方式。

H2O

根据其 GitHub 网站，H20 是：

H2O 是一个用于分布式、可扩展机器学习的内存平台。 H2O 使用熟悉的界面，如 R、Python、Scala、Java、JSON 和 Flow 笔记本/Web 界面，并与 Hadoop 和 Spark 等大数据技术无缝协作。

H20 没有使用流行的 GitHub 问题跟踪器，而是使用开源 Jira 板。要了解 H20 开发人员和用户社区，请访问 Stack Overflow（浏览标记 H2O 的问题）。[0][1]

为了熟悉 H2O 社区并愿意做出贡献，我还建议关注他们（非常有趣）的 Twitter 帐户。

更务实的是，初学者应该探索 JIRA 板中的现有问题。努力重现或解决现有问题。在现有问题中添加有关您发现的内容的注释。您还可以对对您和您的工作更重要的问题进行投票。

准备好使用新代码的更高级的用户可以立即开始处理现有问题，这些问题具有高投票数和足以诊断和修复潜在问题的文档。

PyLearn 2

该库旨在使机器学习研究变得容易。对于有抱负的开源贡献者来说，使这个库成为一个有趣的库的原因在于它需要开发人员来接管它。它的 GitHub 网站说：

该项目目前没有任何开发者。我们将继续审查拉取请求并在适当的时候合并它们，但除非有人决定着手处理，否则不要期待新的开发。

你能成为下一个开发者吗？如果是，您将继承一个组织良好的系统，其中包括 GitHub 存储库、用户邮件列表 (pylearn-users@googlegroups.com)、文档和开发人员邮件列表 (pylearn-dev@googlegroups.com)。[0][1]

该项目的最后一次提交是 2020 年 8 月（截至本文撰写和发表时）。有 100 多个问题几乎有十几个被标记为“初学者”。

Pandas Profiling

如上所述，这是正在寻找新项目名称的包。

该软件包可以显着减少您花在探索性数据分析上的时间。实现只需要五行代码（如图所示）。

在本文的早期版本中，我介绍了该项目的问题跟踪器中的两个问题。两者都没有关闭，但都显示出进步和工作的迹象。

Pandas Profiling 文档将用户引向 Stack Overflow 以询问有关软件包的问题，将用户引至 Github 以报告错误、提出更改和提交功能请求，以及将他们的 Slack 引向一般聊天、问题和合作机会。[0][1][2]

为了指导用户做出贡献，Pandas Profiling 将潜在贡献分为五个类别，包括“探索性数据分析”、“稳定性”（包括性能和受限环境兼容性）、“交互与用户体验”、“社区”和“机器学习” 。”

例如，在“社区”类别下，GitHub 的问题跟踪器中有一个问题，涉及建议包的新名称。提交的问题表明“pandas-profiling”并不是最好的名称。如果你对 Python 相关的文字游戏很聪明或有创意，这对你来说是个问题！[0]

Thanks For Reading

如果您喜欢我要说的内容，请访问：adamrossnelson.medium.com 了解更多信息。[0]

谢谢阅读。把你的想法和想法发给我。你可以写只是说嘿。如果你真的需要告诉我我是怎么弄错的，我期待着尽快聊天。推特：@adamrossnelson |领英：亚当罗斯尼尔森|脸书：亚当·罗斯·尼尔森。[0][1][2]

文章出处登录后可见！

已经登录？立即刷新

接受社区贡献的数据科学项目

接受社区贡献的数据科学项目

通过为开源软件做出贡献来培养您的技能并帮助他人。

Introduction

Overview

选择适合您的项目

SK Learn

H2O

PyLearn 2

Pandas Profiling

Thanks For Reading

相关推荐