按时间归档:2022年04月
-
有效地连接多个(和凌乱的)数据帧
How to Batch Process and Concatenate Dataframes with Messy Data——连接数据集是数据世界中非常常见的数据处理任务。根据您的需要,您可能需要通过垂直堆叠来连接多个数据帧(与 SQL 中的“联合”操作相同)。 …
-
通过简单的数据增强提高文本分类任务的性能
NLP 任务的文本数据增强——对少量数据进行训练会增加过度拟合的机会。数据增强是一种创建现有数据的人工相似样本的技术。数据增强技术通常用于模型需要大量数据的任务,但我们对数据的访问权限有限……
-
使用 PyMC3 进行贝叶斯客户生命周期价值建模
实施 BG-NBD,一种概率层次模型,使用 PyMC3 分析客户购买行为——客户生命周期价值 (CLV) 是客户在其关系期间对公司的总价值。公司客户群的集体 CLV 反映了其经济价值,并且经常被衡量以评估其未来前景。虽然存在许多估算 CLV 的方法,但其中一种……
-
可视化集群结果的最佳实践
集群可视化和解释的成熟技术——集群是数据科学中最流行的技术之一。与其他技术相比,它很容易理解和应用。但是,由于集群是一种无监督的方法,因此您很难确定业务客户可以理解的不同集群。目标 本文为您提供…
-
SageMaker 无服务器推理现已普遍可用
探索最新的 SageMaker 推理选项——写这篇文章我非常兴奋。 ML Inference 本身就非常有趣。将无服务器添加到其中,它变得更加有趣!当我们谈到 sServerless Inference 之前,我们不得不考虑潜在地使用 AWS Lambda 等服务。服务的问题……
-
Statsmodel线性回归模型总结的简单解释
Statsmodel 库模型摘要说明 — 简介 回归分析是许多统计学家和数据科学家的生计。我们出于预测的目的执行简单和多元线性回归,并且总是希望获得一个没有任何偏差的稳健模型。 …
-
面向数据科学家的 GitHub 综合指南
通过 UI 和命令行为数据科学家提供的 GitHub 教程——本文背后的目的是让数据科学家/分析师(或任何非工程专业人士)了解如何使用 GitHub 以及遵循哪些最佳实践。本教程将包含使用 UI 和命令行(终端)的组合指南。命名…
-
运动分析中的毕达哥拉斯期望,以不同运动为例
毕达哥拉斯期望用于不同的运动,如棒球、篮球、足球、曲棍球等,以驱动数据驱动的分析和预测建模——毕达哥拉斯期望是一种运动分析公式,是伟大的棒球分析师和统计学家之一比尔詹姆斯的心血结晶。它最初源自棒球并为棒球而设计,最终被用于其他职业运动,如篮球、足球、美式足球、冰球等。
-
在 Web 上嵌入交互式 Python 图
关于如何使用 Plotly Chart Studio 和 Datapane 在网络上共享 Python 绘图的指南——简介数据科学管道中最重要的步骤之一是数据可视化。事实上,借助数据可视化,数据科学家可以快速收集有关他们可用数据和任何可能异常情况的见解。传统上,数据可视化包括创建静态图像和汇总统计……
-
通过智能提示降低 OpenAI GPT-3 成本的 3 个技巧
减少 GPT-3 提示代币并节省资金——GPT-3 最高和最准确的模型 Davinci 每 1000 个代币花费 6 美分。因此,在生产应用程序中大规模运行并不便宜。所以除了设计提示之外,更重要的是要掌握智能提示的技巧,那就是减少…