93 个用一行代码加载的数据集

您如何可以在运行中提取几十个示例政治、体育、教育和其他框架中的一个。 — TLDR:如果您对相同的旧示例数据感到厌烦,请收藏这篇文章。它将向您展示您以前可能没有使用过的近 100 个示例。每个示例加载一行代码。示例来自政治、教育、健康、体育、技术,也只是为了搞笑。介绍

目录

93 个用一行代码加载的数据集

您如何可以在运行中提取几十个示例政治、体育、教育和其他框架中的一个。

TLDR:如果您对相同的旧示例数据感到厌烦,请收藏这篇文章。它将向您展示您以前可能没有使用过的近 100 个示例。每个示例加载一行代码。

示例来自政治、教育、健康、体育、技术,也只是为了搞笑。

Introduction

对于数据科学中的培训、测试、演示或其他相关目的,您需要数据。快速加载示例数据集(在一行代码中)通常非常容易。如果你像我一样,也许你已经陷入了只有一两个“去”选择的习惯。

为了增加工作的多样性,我列出了近 100 个数据源,这些数据源在一行代码中加载。我希望其他人也可能会发现此列表很有用。

数据源按 alpha 顺序包括:datausa.io、ESPN(体育)、五点三十八(体育、政治、其他)、维基百科等。在准备这篇文章时,我避免了一些更常见的数据源选项,例如 Kaggle。这篇文章是关于将我们的工作扩展到新的例子。

因为我搜索了不太常见的示例,所以本文将通过向您展示如何在一行代码中快速加载一系列数据帧来拓宽您的视野。

本文将展示 Python、R 和 Stata 中的许多数据帧。本文底部讨论了一些限制。

Why Three Softwares

为什么不是三个?真的,我只想帮助尽可能多的人,不管您最常使用哪种编码语言。我用 Python 演示了每一个例子。大多数示例还引用了 Stata 和/或 R。

这三个软件选择是我最常使用的三个。您想查看此处列出的另一种语言吗?让我知道,我们可以合作增加第四个(或第五个)。此外,如果您还不知道:

Python——“Python 是一种编程语言,可让您快速工作并更有效地集成系统。” Python.org。对于大多数数据工作,您还需要 Pandas——它是“一种快速、强大、灵活且易于使用的开源数据分析和操作工具,建立在 Python 编程语言之上。”熊猫.Pydata.org。拥有或知道本文同样有用的是,本文广泛使用了 pd.read_html()。我建议读者也阅读这个方便的 Pandas 方法的完整文档。[0][1][2]

R — “R 是用于统计计算和图形的免费软件环境。它可以在各种 UNIX 平台、Windows 和 MacOS 上编译和运行。” R-Project.org。从 R 中的在线 csv 文件加载数据的主要工具将是 read.csv()。[0]

Stata——“数据科学的统计软件”。 Stata.com。以下解决方案使用 Stata 的 import delimited 命令(用于 CSV 文件)及其使用命令(用于 Stata dta 文件)。这两个命令都支持 url 互联网网址。[0]

1–4 五点三十八 数据

根据 Wikipedia 的说法,“FiveThirtyEight,有时呈现为 538,是一个专注于民意调查分析、政治、经济和体育博客的美国网站。”该网站还提供或制作博客、YouTube 视频和播客。

到目前为止,我还没有找到一个优雅的解决方案,可以从在线找到的 zip 文件中获取数据,然后在一行代码中将其全部加载。如果有人有,请告诉我。同时,也值得细读五点三十八的数据存档,它将大部分数据包含在一个 zip 中。[0]

Favorability Poll Results

我想到我会在下个统计学学期向学生推荐这些数据。这将成为他们学期项目的素材。

# Python
pd.read_csv('https://projects.fivethirtyeight.com/polls/data/favorability_polls.csv')
// Stata
import delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/attention.csv
# R
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/attention.csv")

过去一年的总统投票结果

这个具有 16,700 多行。

# Python
pd.read_csv('https://projects.fivethirtyeight.com/polls/data/president_polls_historical.csv')
// Stata
import delimited https://projects.fivethirtyeight.com/polls/data/president_polls_historical.csv
# R
read.csv("https://projects.fivethirtyeight.com/polls/data/president_polls_historical.csv")

参议院和众议院民意调查结果(历史性)

# Python House
pd.read_csv('https://projects.fivethirtyeight.com/polls/data/house_polls_historical.csv')
# Python Senate
pd.read_csv('https://projects.fivethirtyeight.com/polls/data/senate_polls_historical.csv')
// Stata House
import delimited https://projects.fivethirtyeight.com/polls/data/house_polls_historical.csv
// Stata Senate
import delimited https://projects.fivethirtyeight.com/polls/data/senate_polls_historical.csv
# R House
read.csv("https://projects.fivethirtyeight.com/polls/data/house_polls_historical.csv")
# R Senate
read.csv("https://projects.fivethirtyeight.com/polls/data/senate_polls_historical.csv")

5–11 其他入门数据文件

这组鲜为人知的来源是在线数据源的集合。其中很少有人打算作为数据源。但是,它们很有用,值得一看。

Global Food Prices

这需要一段时间(包含 2,050,638 条记录和 18 列的大文件)。

# Python
pd.read_csv('https://data.humdata.org/dataset/4fdcd4dc-5c2f-43af-a1e4-93c9b6539a27/resource/12d7c8e3-eff9-4db0-93b7-726825c4fe9a/download/wfpvam_foodprices.csv')
// Stata
import delimited https://data.humdata.org/dataset/4fdcd4dc-5c2f-43af-a1e4-93c9b6539a27/resource/12d7c8e3-eff9-4db0-93b7
726825c4fe9a/download/wfpvam_foodprices.csv
# R
read.csv("https://data.humdata.org/dataset/4fdcd4dc-5c2f-43af-a1e4-93c9b6539a27/resource/12d7c8e3-eff9-4db0-93b7-726825c4fe9a/download/wfpvam_foodprices.csv")

Wikipedia HTML Tables

来自维基百科的表格经常需要工作。它们没有针对数据分析进行优化。如果您正在寻找有关数据清理、准备或整理主题的示例数据,这些表格是不错的选择,因为它们模仿了尚未为分析目的准备的“真实世界”数据。

这些数据的另一个挑战是 Python Pandas 有一个成熟的读取 HTML 数据表的解决方案。 Stata 和 R 中的等效解决方案开发较少。因此,本节仅提供 Python 代码。

Snakes (Real Pythons) 使用 pd.read_html() 和其他平台的相关工具轻松加载。

# Python
pd.read_html('https://en.wikipedia.org/wiki/Pythonidae')[2]

一张美国 NFL 体育场的桌子怎么样?运动爱好者的好选择。

# Python
pd.read_html('https://en.wikipedia.org/wiki/National_Football_League')[3]

美国总统名单。

# Python
pd.read_html('https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States')[1]

世界国家名单。

# Python
pd.read_html('https://en.wikipedia.org/wiki/List_of_sovereign_states')[0]

英国人口普查数据

# Python
pd.read_html('https://en.wikipedia.org/wiki/London')[6]

英国人口普查数据是展示快速饼图的好地方。

df['2011 United Kingdom Census[223]'].loc[1:]\
.set_index('Country of birth')\
.plot.pie(y='Population',
legend=False)

State Abbreviations & Codes

您多久需要一份州缩写和代码列表(在美国)? Clerk.org 来救援。

# Python
states = pd.read_html(http://app02.clerk.org/menu/ccis/Help/CCIS%20Codes/state_codes.html)[0]

12-16 来自 ESPN.com 的数据

NFL 体育场出勤记录。这些数据可用于过去 20 年。以下是过去 5 年的代码。有人有兴趣想象大流行的衰退吗?

# Python
pd.read_html('http://www.espn.com/nfl/attendance/_/year/2021',
header=1)[0]
pd.read_html('http://www.espn.com/nfl/attendance/_/year/2020',
header=1)[0]
pd.read_html('http://www.espn.com/nfl/attendance/_/year/2019',
header=1)[0]
pd.read_html('http://www.espn.com/nfl/attendance/_/year/2018',
header=1)[0]
pd.read_html('http://www.espn.com/nfl/attendance/_/year/2017',
header=1)[0]

17 Fake Birds

所谓的假鸟数据来自我之前的一些文章,演示了生成假数据的过程,然后又演示了k近邻。您可以使用以下内容加载这些数据:[0][1]

# Python
pd.read_csv('https://raw.githubusercontent.com/adamrossnelson/BirdsDataCreation/main/BirdVarietyData_March2021.csv')
// Stata
import delimited https://raw.githubusercontent.com/adamrossnelson/BirdsDataCreation/main/BirdVarietyData_March2021.csv
# R
read.csv("https://raw.githubusercontent.com/adamrossnelson/BirdsDataCreation/main/BirdVarietyData_March2021.csv")

18–26 作为数据源的 Stata 集合

如上所述,Stata 是一个统计、数据分析和数据科学平台,它还提供了可用于培训目的演示的数据。这里的代码将加载我最喜欢的十个代码,包括 auto(类似于 Seaborn 的 mpg)、bplong、bpwide(虚构的血压)、cancer(药物试验数据中的患者存活率)、census(stata 的 1980 年美国人口普查数据)、nlsw88 (全国妇女纵向调查,1988 年摘录)、sp500(标准普尔 500 股票数据)和选民(1992 年美国总统选民)。

# Python
pd.read_stata('http://www.stata-press.com/data/r15/auto.dta')
pd.read_stata('http://www.stata-press.com/data/r15/bplong.dta')
pd.read_stata('http://www.stata-press.com/data/r15/bpwide.dta')
pd.read_stata('http://www.stata-press.com/data/r15/cancer.dta')
pd.read_stata('http://www.stata-press.com/data/r15/census.dta')
pd.read_stata('http://www.stata-press.com/data/r15/nlsw88.dta')
pd.read_stata('http://www.stata-press.com/data/r15/sp500.dta')
pd.read_stata('http://www.stata-press.com/data/r15/voter.dta')
pd.read_stata('http://www.stata-press.com/data/r15/pop2000.dta')
// Stata
sysuse auto
sysuse bplong
sysuse bpwide
sysuse cancer
sysuse census
sysuse nlsw88
sysuse sp500
sysuse 2p500
sysuse voeter

一些随 Stata 开箱即用的数据也可从其他来源获得。例如,nlsw88 数据也在 rdrr.io 和 rdocumentation.org。[0][1]

27–36 作为数据源的 Seaborn 集合

Seaborn 附带的数据是众所周知的。一些在线可用的最佳项目示例涉及 Seaborn 包含的库中的数据。我最喜欢教初学者统计数据的方法之一是tipsdata。

对于中级或有经验的用户来说,这些 Seaborn 数据是经常使用的。它们旨在在 Python 中快速加载。但是,如果您使用的是 Stata(或其他可以从在线打开 CSV 的工具),您也可以使用它们。各种巧妙的解决方案将 Seaborn 带到了 R 中。但是,要在 R 中使用这些数据,最简单的方法是使用 R 的 read.csv()。

在这里,我演示了多个单行选项,这些选项可以加载我的 Seaborn 最爱注意力、car_crashes、运动、企鹅、mpg、钻石、航班、虹膜、提示和泰坦尼克号数据。

# Python
df = sns.load_dataset('attention')
df = sns.load_dataset('car_crashes')
df = sns.load_dataset('exercise')
df = sns.load_dataset('penguins')
df = sns.load_dataset('mpg')
df = sns.load_dataset('diamonds')
df = sns.load_dataset('flights')
df = sns.load_dataset('iris')
df = sns.load_dataset('tips')
df = sns.load_dataset('titanic')
// Stata
import delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/attention.csv
import delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/car_crashes.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/exercise.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mpg.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/flights.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csvimport delimited https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv# In R
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/attention.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/car_crashes.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/exercise.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mpg.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/flights.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")
read.csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

37–53 DataUSA.io Data

本网站负责共享来自美国政府的数据。提供有关城市、州、行业、工作、大学、学位、健康等一系列主题的数据。该平台还支持用户无需先下载数据即可在线生成可视化。

此外,从技术上讲,在 Python 中,此代码需要额外的导入导入请求。不要把它算作第二行代码(我没有)。

City Data Examples

纽约市纽约市使用的世界语言。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?Geography=16000US3651000&' \
+ 'measure=Languages%20' \
+ 'Spoken&drilldowns=Language%20' \
+ 'Spoken%20at%20Home')\
.json()['data'])

伊利诺伊州芝加哥的出生地(出生地)年龄。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?Geography=16000US1714000&' \
+ 'measures=Birthplace,Birthplace%20' \
+ 'Moe&drilldowns=Place%20of%20Birth,Age')\
.json()['data'])

State Data Examples

弗吉尼亚州的对外战争退伍军人。该表比较

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?Geography=04000US51,01000US&' \
+ 'measure=Veterans,Veterans%20' \
+ 'Moe&drilldowns=Period%20of%20Service')\
.json()['data'])

该数据概述了明尼苏达州与附近各州相比的美国公民百分比。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?measure=Citizenship%20' \
+ 'Status&drilldowns=' \
+ 'Citizenship&Geography=04000US27,' \
+ '04000US27:neighbors,' \
+ '04000US27:parents,04000US27:similar')\
.json()['data'])

Industry Data Examples

高薪职业(医生)。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?PUMS%20Industry=31-33&measure=Total%20' \
+ 'Population,Total%20Population%20MOE%20' \
+ 'Appx,Average%20Wage,Average%20Wage%20' \
+ 'Appx%20MOE,yiopop%20RCA,Record%20' \
+ 'Count&Record%20Count%3E=5&Workforce%20' \
+ 'Status=true&drilldowns=Detailed%20' \
+ 'Occupation&order=Average%20Wage&sort=desc')\
.json()['data'])

按行业划分的收入分配。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?Geography=01000US&measure=' \
+ 'Total%20Population,Total%20' \
+ 'Population%20MOE%20Appx,Record%20' \
+ 'Count&drilldowns=Wage%20' \
+ 'Bin&Workforce%20Status=true&Record%20' \
+ 'Count>=5')\
.json()['data'])

Job Data Examples

Unemployment insurance claims.

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/covid19/employment/latest/')\
.json()['data'])

工业部门的失业率。

# Python
pd.DataFrame(requests\
.get('https://api-ts-uranium.datausa.io/' \
+ 'tesseract/data.jsonrecords?cube=BLS%20' \
+ 'Employment%20-%20Supersector%20' \
+ 'Only&drilldowns=Month%20of%20' \
+ 'Year,Supersector&measures=NSA%20' \
+ 'Employees&State=04000US06') \
.json()['data'])

Economics

Median household income.

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?measure=Household%20' \
+ 'Income%20by%20Race,Household%20' \
+ 'Income%20by%20Race%20' \
+ 'Moe&Geography=04000US06:' \
+ 'neighbors:parents,04000US06,' \
+ '04000US06:similar') \
.json()['data'])

普通工作中按性别(性别)划分的工资。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?Geography=04000US06' \
+ '&measure=Average%20Wage,Average%20' \
+ 'Wage%20Appx%20MOE,Total%20' \
+ 'Population,Total%20Population%20' \
+ 'MOE%20Appx,Record%20' \
+ 'Count&drilldowns=Gender&Employment%20' \
+ 'Time%20Status=1&Detailed%20' \
+ 'Occupation=1191XX,412010,412031,' \
+ '533030,291141&Record%20Count%3E=5')\
.json()['data'])

University Data Examples

将凤凰城亚利桑那大学的经济援助(按收入组)与其他机构和机构类型的经济援助(按收入组)进行比较。机构类型包括

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?University=484613:' \
+ 'similar,484613,484613:parents&' \
+ 'measures=Median%20Grant%20' \
+ 'Or%20Scholarship%20' \
+ 'Award&drilldowns=Income%20Range')\
.json()['data'])

按机构类型划分的录取率。对于这一点,您必须通过将录取的学生人数除以录取的学生人数来计算录取率。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?University=15:similar,15,15:' \
+ 'parents&measures=Admissions%20' \
+ 'Total,Applicants%20Total')\
.json()['data'])

在计算出接受率之后,Pandas 可以快速进行数据可视化。

Degree Data Examples

该站点按 CIP 代码排序和组织其学位数据。如果您不熟悉 CIP 代码,它们是“教学计划分类”代码。这些代码代表支持准确跟踪和报告学习/学术专业领域的方案。

县授予的学位(在美国)。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?CIP=2401&drilldowns=' \
+ 'County&measure=Completions')\
.json()['data'])

按学位类型授予的学位。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?CIP=2401&measure=' \
+ 'Completions&drilldowns=' \
+ 'Degree&order=Completions&sort=desc')\
.json()['data'])

Health Data Examples

患者与初级保健的比率。

pd.DataFrame(requests\
.get('https://datausa.io/api/' \
+ 'data?measure=Patient%20to%20' \
+ 'Primary%20Care%20Physician%20' \
+ 'Ratio,Patient%20to%20Primary%20' \
+ 'Care%20Physician%20Ratio%20' \
+ 'Data%20Source%20Years&Geography=' \
+ '04000US06:neighbors,04000US06') \
.json()['data'])

每天都有新的 Covid 病例。

# Python
pd.DataFrame(requests\
.get('https://datausa.io/api/covid19/statesnew')\
.json()['data'])

54–59 Crime Data

该数据最初来自 fbi.gov,包括 1960 年至 2019 年美国各州按类别(财产、盗窃、暴力等)分类的人口数据和犯罪数据。感谢 Ryan Whitcomb、Joung Min Choi 和 Bo Guan 通过 GitHub 维护该网站这省去了从 .zip 文件中挖掘数据的需要。

# Python
pd.read_csv('https://corgis-edu.github.io/' \
+ 'corgis/datasets/csv/state_crime/' \
+ 'state_crime.csv')
// Stata
import delimited https://corgis-edu.github.io/corgis/datasets/csv/state_crime/state_crime.csv
# R
read.csv("https://corgis-edu.github.io/corgis/datasets/csv/state_crime/state_crime.csv")

Services Calls

对于每个示例近 500,000 条记录,这里是最近几年来自新奥尔良市的“服务电话”。点击到 data.gov 浏览年份。[0]

# Python (2016)
pd.read_csv('https://data.nola.gov/' \
+ 'api/views/wgrp-d3ma/' \
+ 'rows.csv?accessType=DOWNLOAD')
# Python (2015)
pd.read_csv('https://data.nola.gov/' \
+ 'api/views/w68y-xmk6/' \
+ 'rows.csv?accessType=DOWNLOAD')
# Python (2014)
pd.read_csv('https://data.nola.gov/' \
+ 'api/views/jsyu-nz5r/' \
+ 'rows.csv?accessType=DOWNLOAD')
// Stata (2016)
import delimited https://data.nola.gov/api/views/wgrp-d3ma/rows.csv?accessType=DOWNLOAD
// Stata (2015)
import delimited https://data.nola.gov/api/views/w68y-xmk6/rows.csv?accessType=DOWNLOAD
// Stata (2014)
import delimited https://data.nola.gov/api/views/jsyu-nz5r/rows.csv?accessType=DOWNLOAD
# R (2016)
read.csv("https://data.nola.gov/api/views/wgrp-d3ma/rows.csv?accessType=DOWNLOAD")
# R (2015)
read.csv("https://data.nola.gov/api/views/w68y-xmk6/rows.csv?accessType=DOWNLOAD
# R (2014)")
read.csv("https://data.nola.gov/api/views/jsyu-nz5r/rows.csv?accessType=DOWNLOAD")

纽约市停止问题和 Frisk 数据

这个有争议的计划涉及纽约市警察的随机拦截、询问和搜身。 NYC.gov 网站提供这些数据。 CSV 中只有一些年份可用,如下所示。[0]

# Python (2016)
pd.read_csv('https://www1.nyc.gov/' \
+ 'assets/nypd/downloads/' \
+ 'excel/analysis_and_planning/' \
+ 'stop-question-frisk/sqf-2016.csv')
# Python (2015)
pd.read_csv('https://www1.nyc.gov/' \
+ 'assets/nypd/downloads/' \
+ 'excel/analysis_and_planning/' \
+ 'stop-question-frisk/sqf-2015.csv')
// Stata (2016)
import delimited https://www1.nyc.gov/assets/nypd/downloads/excel/analysis_and_planning/stop-question-frisk/sqf-2016.csv
// Stata (2015)
import delimited https://www1.nyc.gov/assets/nypd/downloads/excel/analysis_and_planning/stop-question-frisk/sqf-2015.csv
# R (2016)
read.csv("https://www1.nyc.gov/assets/nypd/downloads/excel/analysis_and_planning/stop-question-frisk/sqf-2016.csv")
# R (2015)
read.csv("https://www1.nyc.gov/assets/nypd/downloads/excel/analysis_and_planning/stop-question-frisk/sqf-2015.csv")

60 个虚构的平均绩点数据

大多数学校(高中或大学)在任何给定学期的学生平均绩点都有一个独特的分布。这个虚构的数据复制了这种分布。多种变量让您尝试学期 ​​gpa、累积 gpa、专业、经济援助等。

# Python
pd.read_stata('https://raw.githubusercontent.com/' \
+ 'adamrossnelson/StataQuickReference/' \
+ 'master/exampledata/mock_fictional_gpa.dta')
// Stata
use https://raw.githubusercontent.com/adamrossnelson/StataQuickReference/master/exampledata/mock_fictional_gpa.dta

以下是该虚构学期 gpa 数据的独特分布(以直方图形式)的样子。

61–66 From Professor Burkardt

有时教授或老师会在网上藏起一组数据文件。数学和软件教授 Burkardt 拥有大约 50 个 CSV 文件。在本文中,我将展示如何在一行代码中加载其中的 10 个。[0]

airtravel.csv – 1958-1960 年每月跨大西洋航空旅行,有数千名乘客。有 4 个字段,“月”、“1958”、“1959”和“1960”以及 12 条记录,从“JAN”到“DEC”。还有一个初始标题行。

ford_excorts.csv-福特护送出售。有年份、里程、价格等23条记录。

home.csv-房屋销售统计。五十个房屋销售,包括售价、要价、居住空间、房间、卧室、浴室、年龄、面积、税金。

hw_25000.csv-25000 个人的身高和体重每条记录包括 3 个值:指数、身高(英寸)、体重(磅)。

news_decline.csv – 2009-2011 年 6 种电视新闻杂志的平均每晚收视率。每条记录包括 4 个值:节目名称、2009、2010、2011。存储了 6 条记录,分别为“60 分钟”、“48 小时之谜”、“20/20”、“夜间线”、“星期五日期线”和“日期线”星期日。”

# Python
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv')
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv')
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/homes.csv')
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/hw_25000.csv')
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/mlb_players.csv')
pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/news_decline.csv')
// Stata
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/homes.csv
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/hw_25000.csv
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/mlb_players.csv
import delimited https://people.sc.fsu.edu/~jburkardt/data/csv/news_decline.csv
# R
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv")
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv")
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/homes.csv")
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/hw_25000.csv")
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/mlb_players.csv")
read.csv("https://people.sc.fsu.edu/~jburkardt/data/csv/news_decline.csv")

67–68 欧洲数据源 (data.europa.eu)

Defibrillators

欧洲各地有关除颤器的地理位置数据如何,嗯?

# Python
pd.read_csv('https://admin.aedmap.org/' \
+ 'media/upload/defibmap_393_.csv')
// Stata
import deliminted https://admin.aedmap.org/media/upload/defibmap_393_.csv
# R
read.csv('https://admin.aedmap.org/media/upload/defibmap_393_.csv')

Annual London Survey 2010

根据其在 data.europa.eu 上的条目,该数据“取自 BMG Research 于 2010 年初对大伦敦 1,490 名居民进行的面对面调查……[它探索]市长政策和优先事项领域,包括警务安全、环境、交通、奥运会和伦敦生活。”[0]

要理解这些数据,您将需要数据字典,因为原始数据不包含变量名称。[0]

# Python
pd.read_csv('https://s3-eu-west-1.amazonaws.com/' \
+ 'londondatastore-upload/' \
+ 'gla-als-2010-responses.csv')
// Stata
import delimited https://s3-eu-west-1.amazonaws.com/londondatastore-upload/gla-als-2010-responses.csv
# R
read.csv("https://s3-eu-west-1.amazonaws.com/londondatastore-upload/gla-als-2010-responses.csv")

69–71 加州大学欧文分校机器学习存储库

作为对机器学习社区的一项服务,提供多种格式的 600 多个数据文件,涵盖许多主题。在这里找到完整的图书馆。以下是一些值得注意的例子,不一定是最受欢迎的,但很受欢迎。[0]

Red & White Wine

与红色和白色相关的两个数据集。

# Python
pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv')
pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv')
// Stata
import delimited https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
import delimited https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
# R
read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv")
read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv")

姓名性别/性别姓名

用性别映射名字加上给出计数和概率。

# Python
pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00591/name_gender_dataset.csv')
// Stata
import delimited https://archive.ics.uci.edu/ml/machine-learning-databases/00591/name_gender_dataset.csv
# R
read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/00591/name_gender_dataset.csv")

72 Volcano Data

在这里,我展示了您可以从史密森尼的volcano.si.edu 获得的少数数据文件之一。史密森尼网站上的一行代码中的数据有点棘手。但是有点 Google 的魔力可以在各种 GitHub 网站上找到他们的文件。请注意,对于此 CSV,代码需要其他参数来标识行号和列名。[0]

# Python
pd.read_csv('https://raw.githubusercontent.com/' \
+ 'ptillemans/volcanoes/master/' \
+ 'GVP_Volcano_List_Holocene.csv', header=1)
# Stata
import delimited https://raw.githubusercontent.com/ptillemans/volcanoes/master/GVP_Volcano_List_Holocene.csv, varnames(2)

73 只松鼠在纽约市

来自“纽约市数据部”的纽约松鼠普查数据来自 thesquirrelcensus.com。读取数据,但不是真正的纽约市计划,对吧?在 GitHub 的帮助下,只需一行代码即可加载这些数据。[0]

# Python
pd.read_csv('https://raw.githubusercontent.com/' \
+ 'ptillemans/volcanoes/master/' \
+ 'GVP_Volcano_List_Holocene.csv', header=1)
// Stata
import delimited https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-10-29/nyc_squirrels.csv
# R
read.csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-10-29/nyc_squirrels.csv')

74 加州车牌申请

2015 年和 2016 年收到的个性化车牌申请 (23k +) 加州 DMV。显然,并非所有申请。这个会让你咯咯笑。

# Python
pd.read_csv('https://raw.githubusercontent.com/' \
+ 'veltman/ca-license-plates/master/' \
+ 'applications.csv')
// Stata
import delimited https://raw.githubusercontent.com/veltman/ca-license-plates/master/applications.csv
# R
read.csv('https://raw.githubusercontent.com/veltman/ca-license-plates/master/applications.csv')

来自 iWebLists.com 的 75–81 个示例

在 iWebLists.com 上,该网站建议您可以“了解 [晦涩] 问题的答案等等,然后测验您的聪明朋友!”该网站可以轻松地从 Pandas 的 HTML 表格中获取其列表。

请注意,此站点的代码需要 requests.get() 的帮助并使用 header() 参数。不是最漂亮的代码(有更好的实现——但你可以清理它)。本文的目标是用一行代码演示数据。

最长的百老汇演出

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'entertainment/broadway/' \
+ 'LongestRunningBroadwayShows.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

Logest Rivers

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'world/geography/LongestRivers.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

Basketball Championship Winners

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'sports/ncaa/' \
+ 'BasketballChampionships.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

碗比赛(玫瑰和橙色)

最后一个合并单个列中的多个数据字段。解析出这些单独的数据元素将是一个很好的挑战。

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'sports/ncaa/' \
+ 'RoseBowlandOrangeBowl.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

世界政府首都城市

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'world/government/' \
+ 'Capitals.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

世界政府 世界领导人

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'world/government/' \
+ 'WorldLeaders.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

European Union Membership

# Python
pd.read_html(requests.get('https://www.iweblists.com/' \
+ 'world/government/' \
+ 'EuropeanUnion.html',
headers={'User-Agent':
'Mozilla/5.0 ' \
+ '(Macintosh;' \
+ 'Intel Mac OS X 10_10_1) ' \
+ 'AppleWebKit/537.36 ' \
+ '(KHTML, like Gecko) ' \
+ 'Chrome/39.0.2171.95 ' \
+ 'Safari/537.36'}).text)[0]

82–85 Tableau Data

作为重要的数据可视化软件提供商,Tableau 提供了一个示例数据库。以下是一些受欢迎的选择。

好莱坞的盈利故事

# Python
pd.read_csv('https://public.tableau.com/s/sites/default/files/media/HollywoodsMostProfitableStories.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/HollywoodsMostProfitableStories.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/HollywoodsMostProfitableStories.csv")

FIFA 18 Player Ratings

# Python
pd.read_csv('https://public.tableau.com/s/sites/default/files/media/fifa18_clean.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/fifa18_clean.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/fifa18_clean.csv")

Tenis Wimbledon Champions

# Python
pd. read_csv('https://public.tableau.com/s/sites/default/files/media/wimbledons_champions.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/wimbledons_champions.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/wimbledons_champions.csv")

美国房屋销售,1963–2016

# Python
pd.read_csv('https://public.tableau.com/s/sites/default/files/media/enigma-us.gov_.census.eits_.ressales-e7513e56d76050c05caf638306055c98_1.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/enigma-us.gov_.census.eits_.ressales-e7513e56d76050c05caf638306055c98_1.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/enigma-us.gov_.census.eits_.ressales-e7513e56d76050c05caf638306055c98_1.csv")

2016 Presidential Candidate Spending

# Python
pd.read_csv('https://public.tableau.com/s/sites/default/files/media/2016_presidential_candidate_expenditures.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/2016_presidential_candidate_expenditures.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/2016_presidential_candidate_expenditures.csv")

美国最受欢迎的婴儿名字

# Python
pd.read_csv('https://public.tableau.com/s/sites/default/files/media/TopBabyNamesbyState.csv')
// Stata
import delimited https://public.tableau.com/s/sites/default/files/media/TopBabyNamesbyState.csv
# R
read.csv("https://public.tableau.com/s/sites/default/files/media/TopBabyNamesbyState.csv")

86 Broadway Theatre Data

来自百老汇联盟(百老汇行业的全国贸易协会)。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/broadway/broadway.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/broadway/broadway.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/broadway/broadway.csv")

87 Hospital Data

与心脏病发作、急诊科护理、预防性护理、中风护理和其他疾病相关的数据。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/hospitals/hospitals.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/hospitals/hospitals.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/hospitals/hospitals.csv")

88 泰特美术馆藏品

泰特博物馆关于艺术的元数据。不是他们收藏的所有作品,但很多。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/tate/tate.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/tate/tate.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/tate/tate.csv")

89 Fatal Police Shootings

警察在美国涉及致命枪击事件。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/police_shootings/police_shootings.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/police_shootings/police_shootings.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/police_shootings/police_shootings.csv")

90 Food Data

来自美国农业部的食品成分数据库

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/food/food.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/food/food.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/food/food.csv")

91 Billionaires

一个数十年的超级富豪数据库。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/billionaires/billionaires.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/billionaires/billionaires.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/billionaires/billionaires.csv")

92 Project Gutenberg

古腾堡计划中最受欢迎的 1000 本书。

# Python
pd.read_csv('https://think.cs.vt.edu/corgis/datasets/csv/classics/classics.csv')
// Stata
import delimited https://think.cs.vt.edu/corgis/datasets/csv/classics/classics.csv
# R
read.csv("https://think.cs.vt.edu/corgis/datasets/csv/classics/classics.csv")

93 The Dinosaur Data

我根据有趣的“datasaRus”示例保存了一个 CSV。保留此 CSV 可以更轻松地加载单行代码。[0]

# Python
pd.read_stata('https://github.com/adamrossnelson/' \
+ 'StataQuickReference/blob/master/' \
+ 'exampledata/' \
+ 'DatasaRusCorrelationModified.dta?raw=true')
// Stata
use https://github.com/adamrossnelson/StataQuickReference/blob/master/exampledata/DatasaRusCorrelationModified.dta?raw=true

假设 x hypo_x 和假设 y hypo_y 的散点图显示了为什么这个数据很有趣(以及它是如何得名的)。

Limitations

本文有一些限制和警告。

Line Continuation

对于一些示例,本文使用续行。在 Python 中,反斜杠 \ 完成了续行。在 Stata 中,三重斜杠 /// 可以解决问题。就本文而言,换行(或续行)不算作第二行代码。

String Concatenation

为了使代码在 Medium 平台上看起来不错并避免奇怪的换行,本文还在一些地方使用了字符串连接。

索引列表 表 列表

正如您在 pd.read_html() 的文档中所读到的,此代码返回 Pandas 数据帧的列表。 pd.read_html()[i] 之后方括号中的列表索引,这里 i 表示列表中的索引,用于查找感兴趣的数据帧。

本文还使用 requests.get().json() 或 requests.get().json()[data] 从网上抓取和识别 json 数据。在上面的几个示例中,方括号表示法隔离了感兴趣的数据。

Thanks For Reading

您准备好了解更多有关数据科学职业的信息了吗?我进行一对一的职业指导,并有一个每周电子邮件列表来帮助数据专业求职者。联系我了解更多。

把你的想法和想法发给我。你可以写只是说嘿。如果你真的需要告诉我我是怎么弄错的,我期待着尽快聊天。推特:@adamrossnelson LinkedIn:亚当罗斯尼尔森。[0][1]

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年5月11日
下一篇 2022年5月11日

相关推荐