Data Science

  • 93 个用一行代码加载的数据集

    您如何可以在运行中提取几十个示例政治、体育、教育和其他框架中的一个。 — TLDR:如果您对相同的旧示例数据感到厌烦,请收藏这篇文章。它将向您展示您以前可能没有使用过的近 100 个示例。每个示例加载一行代码。示例来自政治、教育、健康、体育、技术,也只是为了搞笑。介绍

    技术文章 2022年5月11日
    3040
  • 前馈神经网络示例(神经网络系列)——第 2 部分

    本文将构建到本系列的前一部分。我们将介绍前馈神经网络 (FF-NN),重点讨论由 NN 完成的计算。该系列的上一部分:神经网络基础(神经网络系列)-第 1 部分神经网络基础(神经网络系列)-第 1 部分神经网络stowardsdatascience.com 神经网络设计(回顾)神经网络是一个由以下组成的系统…

    技术文章 2022年5月11日
    2560
  • 使用 Django 保护您的 Streamlit 应用程序

    围绕您的机器学习 Web 应用程序构建灵活的身份验证系统——Streamlit 是数据科学家将其工作转换为 Web 应用程序的绝佳工具。在之前的一篇文章中,我讨论了围绕 K-Means 聚类创建应用程序的基础知识。用户可以更改集群数量等参数并可视化组的变化。你可以阅读…

    技术文章 2022年5月11日
    4150
  • Data Cleaning Toolbox

    在分析数据之前编译需要注意的方面——在分析中,洞察的质量很大程度上取决于所用数据的质量。正如众所周知的计算机科学谚语“垃圾进,垃圾出”,对于分析上下文,它可以翻译为“垃圾数据进,垃圾洞察出”。为确保此类垃圾不会污染良好数据……

    技术文章 2022年5月11日
    2380
  • 生存分析:简介

    初步了解最适合检查事件发生时间数据的方法——生存分析是一种久经考验且值得信赖的方法,可从事件发生时间数据中获得洞察力。不幸的是,尽管我花了很多时间学习生存分析,但在我自己的项目中,我忽略了这项技术,即使它的用途很合适。这很可能是因为我使用的许多资源……

    技术文章 2022年5月11日
    4660
  • 2022 年将开展的 5 个医疗保健数据分析项目

    在当今不断发展的技术世界中,数据为企业提供动力。未来的职业涉及各个行业的数据分析——医疗保健、金融、体育、零售和电子商务、流媒体、航空、约会、营销、天气、教育、政府、旅游以及阳光下的一切。企业依靠数据来保持竞争力、敏捷性和……

    技术文章 2022年5月11日
    2180
  • 平均值还是中位数?选择基于决策,而不是分布

    即使对于倾斜的数据,平均值有时也会导致更好的决策——当我面试数据科学申请人时,我最喜欢的问题之一是,“什么时候使用平均值而不是中位数更好?”这个问题不仅可以帮助我评估候选人的统计基础,还可以让我了解他们如何解决问题。他们……

    技术文章 2022年5月11日
    1.2K0
  • 在 Python 中创建词云的快速简便指南

    创建不同形状的词云以更好地传达信息——词云是可视化文本数据的好方法。而 python 可以很容易地创建一个。在这篇文章中,我们将介绍一个使用 Wordcloud 库生成词云的示例。如果你不知道它是什么,一个词云可以可视化单词出现的频率……

    技术文章 2022年5月11日
    2330
  • 主动学习:改善数据标记体验的实用方法

    使用 doccano 和 modAL 进行人类标记的更智能方式 — 目录 · 人类标记 · 主动学习 ∘ 所有观察的表现 ∘ 主动学习的表现 · 总结 好吧,让我们谈谈在数据科学领域:标记数据。这是一个痛苦的过程,而且可能……

    2022年5月11日
    5580
  • 专家分析师如何看待时间

    成为“真正的”数据分析师的旅程——当我开始在会议上谈论分析的重要性时,我发现让观众相信它的价值是很容易的部分。当我解释问题时,情绪发生了变化:分析是对时间的投资……而且,与所有投资一样,你有可能一无所获……

    技术文章 2022年5月11日
    2310