2022 年将开展的 5 个医疗保健数据分析项目

在当今不断发展的技术世界中,数据为企业提供动力。未来的职业涉及各个行业的数据分析——医疗保健、金融、体育、零售和电子商务、流媒体、航空、约会、营销、天气、教育、政府、旅游以及阳光下的一切。企业依靠数据来保持竞争力、敏捷性和……

2022 年将开展的 5 个医疗保健数据分析项目

在当今不断发展的技术世界中,数据为企业提供动力。
未来的职业涉及各个行业的数据分析——医疗保健、金融、体育、零售和电子商务、流媒体、航空、约会、营销、天气、教育、政府、旅游以及阳光下的一切。

企业依靠数据来保持竞争力、敏捷性并做出更明智的决策。医疗保健行业也不例外。在医疗保健行业工作了将近一年,我意识到医疗保健行业在技术采用方面以保守而臭名昭著。我们使用的是 40 年前构建的遗留系统,这些年来根据需要进行了微小的转换。现在是医疗保健领域进行数字革命的时候了。

如果您正在寻找与数据相关的工作或学习数据科学以进行职业转换,或者有兴趣在 9-5 岁之后从事数据项目,我建议您考虑常青树的医疗保健领域。

在一个错误可能意味着生死攸关的行业中,这些项目只能如此有趣。

但是,您如何确定正确的项目?

我通常会根据您的工作目标和带宽来解决三个因素:

  1. Length of project
    可以在一周内完成的项目与一个月内完成的项目(组合项目)
  2. 问题陈述的类型
    聚类、回归、情感分析、预测建模
  3. Representation of outcome
    数据模型、Tableau 或 PowerBI 可视化、表格或图表

注意:下面的项目是为了激发类似的项目。用于项目的数据可能是也可能不是开源的。

1. The short project

预测医疗中心的手术量

数据:范德比尔特大学医学中心择期手术时间表[0]

问题陈述:预测医疗中心的日常需求,以有效利用 55 个手术室

方法:根据48周手术时间表的历史数据,预测手术病例量需求。您可以识别自变量、删除相关变量并创建多个回归模型,以实现手术量预测的最小误差

Output format: Table

2. The portfolio project

分析 Twitter 上 COVID-19 疫苗接种的趋势

论文发表于:https://infodemiology.jmir.org/2022/1/e33909[0]

数据:从 Twitter 中提取的推文

目标(我的 GitHub 上有更多项目细节):[0]

  • 在与 COVID 疫苗相关的时间范围内从推文中提取信息,其中意见高度非结构化、异质性、正面或负面或中立,并确定情绪变化的驱动因素
  • 使用时间轴中的突破性事件支持的主题建模和文本分析来探索收集的推文中发生的对话和抽象“主题”
  • 可视化 Twitter 用户的情绪趋势和与发现的主题相关的流行度

Approach

  1. 数据收集:2021 年 1 月至 4 月期间收集了 274 万条推文
  2. 数据预处理:数据清理和使用词袋将个人推文与组织推文和机器人推文分开
  3. Data Modeling:
  • 无监督 LDA——理解隐藏在推文中的抽象主题
  • 情绪分析——使用 VADER(情绪推理的价意识词典)检查疫苗在大流行期间对用户态度的影响
  • 相关性解释 (CorEx) — 将主题建模转向由无监督 LDA 识别的主题。使用的归一化主题相关性 (NTC) 表示由特定主题解释的单个文档内的相关性

4. 数据可视化:使用 Excel 和 Tableau 的图形、图表和热图

3. 预测分析项目

通过医院的套餐定价估算治疗计划

套餐定价:患者在入院时获得治疗费用,基于临床定义的护理事件的预期费用

然后是传统定价:价格是通过结合该设施后处理使用的治疗或服务来计算的

数据:Mission Hospital 的套餐定价[0]

问题陈述:根据入院时的临床因素,建立预测模型来估计治疗价格

方法:处理数据变量中的相关性,处理 NULL 值,对重要变量进行特征工程,运行统计测试以了解因变量对目标变量的影响,并创建最佳多元回归模型来估计治疗价格

输出:治疗成本最高的数据变量

4. 开箱即用的项目

前列腺癌患者生存分析

生存分析是回归的一个分支,允许量化对一组预测变量生存的影响。当我们需要分析直到事件发生(例如死亡或机器故障)的预期持续时间时,该模型就会出现。

数据:PHI(受保护的健康信息)——数据未公开

问题陈述:确定前列腺癌患者的 7 年生存率

方法:数据清理和特征工程以识别诊断一年后未能存活的患者的症状。对被诊断患有前列腺癌的患者进行生存分析。

输出:确定重要的生存风险因素

5. The Visualization Project

用数据讲故事是现在和未来,并且会一直存在。

数据可视化是传达您的故事和从未见过的数据的潜在见解的最有效方式之一。任何具有医疗保健数据点的数据集都可以通过几个问题陈述进行可视化。例如 –

  • 城市住院时间[0]
  • US Healthcare Expenditures[0]
  • 急诊室入院分析[0]

小努力大有作为!

  1. 商业头脑就是一切
  2. 理解您的问题陈述,就像为企业增加价值一样
  3. 如果您花费 80% 的时间来清理数据,那么您做对了
  4. 在每个步骤中记录您的项目并在 GitHub、Tableau Public 和公共平台上共享

这就是我对这个博客的结束。感谢您的阅读!在评论中让我知道您有趣的项目、您的数据之旅以及 2022 年的目标!

如果您喜欢阅读此类故事,请考虑通过此链接注册成为 Medium 会员![0]

Happy Data Tenting!

Rashi 是来自芝加哥的数据专家,他喜欢可视化数据并创建富有洞察力的故事来传达业务洞察力。她是一名全职的医疗保健数据分析师,在周末用一杯好咖啡撰写有关数据的博客……

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月11日
下一篇 2022年5月11日

相关推荐