LinkedIn:您永远不知道的最佳示例数据源

使用本指南了解和浏览 LinkedIn 允许您从您的个人资料下载的数据 — TLDR:本文不是关于网络抓取的。它使用 LinkedIn 的授权“获取您的数据副本”服务来演示如何将这些数据用于培训、测试和演示目的。概述 本文将向读者介绍 LinkedIn 的“获取数据副本”服务,并探讨如何……

LinkedIn:您永远不知道的最佳示例数据源

使用本指南了解和导航领英允许您从个人资料下载的数据

TLDR:这篇文章不是关于网络抓取的。它使用 LinkedIn 的授权“获取您的数据副本”服务来演示如何将这些数据用于培训、测试和演示目的。

Overview

本文将向读者介绍 LinkedIn 的“获取数据副本”服务,并探讨如何将这些数据用作学习、测试、培训和开发目的的示例数据。

本文及其讨论的数据至少有两个很好的用途:

  1. 将 LinkedIn 数据用于培训、测试和演示目的。-正如我之前所说:LinkedIn 数据是您从未知道的最佳示例数据源。
  2. 使用本文作为领英数据的指南。 — 寻找新颖的“真实世界”数据作为训练、测试或演示目的示例时的好去处。
  3. 将本文用作数据可视化食谱。 — 下面的示例包括条形图、折线图和其他带有注释、数据标签和其他细微增强功能的图表。

Introduction

一年多来,我一直在收集和研究 LinkedIn 数据。下面是我从 LinkedIn 下载和收集的文件的屏幕截图(使用他们授权的“获取数据副本”门户)。

您也可以从 LinkedIn 访问您的数据,方法是单击 LinkedIn 主页右上角的“我”图标 > 然后单击“设置和隐私” > 然后单击“获取数据的副本”。

LinkedIn 几乎需要一整天的时间来准备您的摘录。值得等待。获得数据副本后,您将有近 40 个 CSV 文件可供探索。不同的用户会有不同的结果,因为并非所有用户都会拥有来自 LinkedIn 的所有功能集的数据。

我之前使用这个数据来展示 pd.crosstab() 和 pd.pivot_table() 之间的差异。

The LinkedIn Data

每个用户都会体验到略有不同的结果。在这里,我简要介绍了三个我认为大多数用户都可以使用并且我认为最有趣的 CSV。我们从connections.csv 开始,列出您的所有连接。然后是receipts.csv,这是您在LinkedIn 上的支出记录。然后我们转到以您发送和接收的消息命名的messages.csv。

LinkedIn 的数据有点神秘。文档不完整。个人请求:请阅读此文档,然后提交请求,让 LinkedIn 改进文档。例如,LinkedIn 记录 endorsements_received.csv 但不记录 endorsements_given.csv。[0][1]

Specific Data Files

Connections (Connections.csv)

从connections.csv开始。请注意,此 csv 需要使用 headerargument 来指定第一行数据。使用 index_col=’Connected On’ 和 parse_dates=Truearguments 使您的连接日期成为索引。

connections = pd.read_csv('Connections.csv', 
header=2,
index_col='Connected On',
parse_dates=True)

此数据将告诉您每个连接的名字、姓氏、电子邮件地址、公司和职位。使用下面的代码,您可以在 LinkedIn 上绘制您的连接增长图。

plt.style.use('fivethirtyeight')
connections['count'] = 1
connections['count'] = connections['count'].cumsum()
connections['count'].plot(xlabel='Time',
ylabel='Connections',
figsize=(10,5))
plt.axhline(500, color='red', linewidth=.5)
plt.axvline(pd.to_datetime('2018-12-1'),
color='black', linewidth=.5)
plt.annotate('Six years to reach 500 connections.',
xy=(pd.to_datetime('2014-01-01'), 500),
xytext=(pd.to_datetime('2009-01-01'), 1200),
color='blue',
arrowprops={'arrowstyle':'->',
'linewidth':2,
'color':'blue'})
plt.annotate('First began regular publishing on Medium.',
xy=(pd.to_datetime('2018-12-01'), 1400),
xytext=(pd.to_datetime('2012-01-01'), 2200),
color='black',
arrowprops={'arrowstyle':'->',
'linewidth':2,
'color':'black'})

For the result:

您可能还对您的连接的性质感兴趣。考虑一个条形图,显示您的连接最常见的职位标题的频率。

在我的关系中,有 2,081 个独特的职位头衔。在我的人脉中,最常见的职位头衔是“数据科学家”(44 人脉),其次是“执行董事”(31 人脉)。以下代码可视化这些标题:

plt.style.use('seaborn-white')
connections['Position'] = connections['Position'].str.upper()
top_titles = pd.DataFrame(connections['Position'].value_counts().head(12))
top_titles.plot.barh(figsize=(10,5))
# Add bar height labels.
for i in range(12):
plt.text(top_titles.iloc[i][0]+1,
i, top_titles.iloc[i][0]+1, fontsize=12)

您的支出 (Receipts.csv)

事实证明,这些年来我在 LinkedIn 上花费了大约 380 美元。我的第一笔交易金额为 19.95 美元,用于他们的“求职者基本订阅(每月)”服务。

在一行代码中,您可以获得总支出(假设您花费了任何东西并且有一个收据.csv 文件:

pd.read_csv('receipts.csv')['Total Amount'].sum()

您的消息 (Messages.csv)

此文件包含您在 LinkedIn 上的消息历史记录。 “对话 ID”、“对话标题”、“发件人”、“发件人资料 URL”、“日期”、“内容”和“文件夹”有一列。

我什至不知道你可以在 LinkedIn 的文件夹中归档消息。您可能想知道您发送消息的频率、一个月中的哪几天以及一年中的什么时间。热图将对此有所帮助。

您发送和接收了多少条消息?

pd.read_csv('messages.csv').shape[0]

你的第一条信息是什么?你给谁发信息?你说什么?

pd.read_csv('messages.csv',
index_col='DATE',
parse_dates=True).sort_index().iloc[0]

以下代码的版本可能会揭示您的消息传递历史记录。首先,热图显示了您在一整年中的消息传递习惯。

# Load the messages data.
messages = pd.read_csv('messages.csv',
index_col='DATE',
parse_dates=True)
# Get the next year in number format
ny = int(str(date.today())[:4]) + 1
# Create a data frame for next year.
ny = pd.date_range(start=f'1/1/{ny}',
end=f'12/31/{ny}')
# Populate next year with zero messages in each day
ny = pd.DataFrame({'Count':[0] * len(ny)},
index=ny)
# Prepare data for visualization
mv = pd.DataFrame(messages.index)\
.set_index('DATE').tz_localize(None)
mv['Count'] = 1
mv = pd.concat([mv, ny])
# Create visualization axes
mv['Year'] = pd.DatetimeIndex(mv.index).year
mv['Month'] = pd.DatetimeIndex(mv.index).month
mv['DayOfMonth'] = pd.DatetimeIndex(mv.index).day
mv['DayOfWeek'] = pd.DatetimeIndex(mv.index).dayofweek
mv['HourOfDat'] = pd.DatetimeIndex(mv.index).hour
# Make the plot
tot_mgs = mv['Count'].sum()
plt.figure(figsize = (16,5))
total_messages = mv['Count'].sum()
sns.heatmap(pd.pivot_table(mv,
values='Count',
index='Month',
columns='DayOfMonth',
aggfunc='sum'),
cmap=my_blues,
annot=True,
fmt='g')
plt.suptitle(
f'Daily Monthly Messaging Activity Since {mv["Year"].min()}',
horizontalalignment='right')
plt.title(
f'{tot_mgs:,} Messages Over {mv["Year"].max() - mv["Year"].min()} Years',
horizontalalignment='right')

对于以下结果:

其次,折线图将显示随时间的累积交易量。

plt.style.use('fivethirtyeight')
messages.sort_index(inplace=True)
messages['count'] = 1
messages['count'] = messages['count'].cumsum()
messages['count'].plot(xlabel='Time',
ylabel='Messages',
figsize=(10,5))
plt.annotate('Six years to reach 500 connections.',
xy=(pd.to_datetime('2014-01-01'), 500),
xytext=(pd.to_datetime('2008-01-01'), 2800),
color='blue',
arrowprops={'arrowstyle':'->',
'linewidth':2,
'color':'blue'})
plt.annotate('First began regular publishing on Medium.',
xy=(pd.to_datetime('2018-12-01'), 1400),
xytext=(pd.to_datetime('2011-06-01'), 4600),
color='black',
arrowprops={'arrowstyle':'->',
'linewidth':2,
'color':'black'})
plt.annotate('First Udemy Course / Began consulting.',
xy=(pd.to_datetime('2020-10-01'), 3300),
xytext=(pd.to_datetime('2013-06-01'), 6800),
color='blue',
arrowprops={'arrowstyle':'->',
'linewidth':2,
'color':'blue'})
plt.text(
pd.to_datetime('2008-10-01'), 12200,
f'Cumulative Messaging History Since {mv["Year"].min()}')
plt.text(
pd.to_datetime('2008-10-01'), 11200,
f'{total_messages:,} Messages Over {mv["Year"].max() - mv["Year"].min()} Years')

For the result:

Conclusion

对于希望使用“新”或有趣数据的人们来说,一些常见的建议是从社交媒体获取自己的数据。本文超越了该建议,并简要介绍了当您开始浏览自己的社交媒体数据时可能会发现的一些数据。

Thanks For Reading

您准备好了解更多有关数据科学职业的信息了吗?我进行一对一的职业指导,并有一个每周电子邮件列表来帮助数据专业求职者。联系我了解更多。

谢谢阅读。把你的想法和想法发给我。你可以写只是说嘿。如果你真的需要告诉我我是怎么弄错的,我期待着尽快聊天。推特:@adamrossnelson LinkedIn:亚当罗斯尼尔森。[0][1]

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2022年5月12日
下一篇 2022年5月12日

相关推荐