数据科学行业值得关注的五个趋势

分析行业可能走向何方以及您可能如何为此做准备——著名曲棍球运动员经常引用一句话:“我滑到冰球将去的地方,而不是它曾经去过的地方。”这句话几乎适用于每个行业,数据科学也不例外。尽管概念数据科学并不完全是一项新研究,但应用…

原文标题Five Trends to Watch for in the Data Science Industry

Opinion

数据科学行业值得关注的五个趋势

分析行业可能走向何方以及您可能如何做好准备

数据科学行业值得关注的五个趋势

著名曲棍球运动员经常引用一句话:“我滑到冰球将要到达的地方,而不是它曾经所在的地方。”这句话几乎适用于每个行业,数据科学也不例外。尽管概念数据科学并不是一项全新的研究,但应用数据科学仍处于相对起步阶段。可能只是在过去 7 年左右的时间里,我们已经看到数据科学在主流公司中获得了牵引力,因此它仍然非常适合持续发展。

当然,任何人都应该为未来可能发生的任何事情做好准备。几年来,我一直是该领域的专业从业者,因为我看到自己的职业生涯在这里继续发展,我想确保我现在正在做正确的事情,为未来做好准备。当然,我没有水晶球,所以我不能肯定地说我在下面分享的趋势肯定会发生。

但是根据过去推断未来实际上是我们的工作!我们使用数据科学来寻找数据趋势,同样,我也在利用自己在众多渠道中的专业经验,对行业可能走向何方做出有根据的猜测。就上下文而言,我是一家财富 50 强公司的机器学习工程师,定期发布和使用有关数据科学的文章。我指导各种各样的学生、实习生和希望成为职业发展的人,我经常梳理LinkedIn和Reddit等网站,看看数据科学领域的“热门话题”是什么。当然,肯定有人比我更了解数据科学,但我想我已经掌握了我们这个令人惊叹的行业发展方向的脉搏。

下面的列表按重要性从低到高排序。同样,这只是我对数据科学发展方向的个人看法,我完全承认我可能是错的。我希望您能够了解这些趋势,并了解如果这些趋势成为现实,您可以如何调整自己的技能以做好最好的准备。

事不宜迟,让我们进入列表吧!

5. 更多地方的更多人工智能

正如我上面提到的,概念数据科学并不是全新的。只是由于通用硬件设备计算能力的提高,它在过去几年变得越来越流行。如果您考虑企业级软件,那么在计算能力方面的许多“繁重”工作都来自一些普通用户无法访问的数据中心的大型服务器。随着硬件通过在更小的外形尺寸中实现更快的计算速度而不断发展,我想我们也将看到人工智能在越来越多的设备中的使用增加。

仅在过去五年中,我们就看到我们称之为“物联网”(IoT)市场的设备数量显着增加。迄今为止,这些物联网设备的功能相对简单,从打开灯泡到打开车库门。我个人还没有看到很多物联网设备在数据科学方面做任何复杂的事情,这可能是因为大多数物联网设备还没有达到能够以毫秒级延迟处理深度神经网络等事情的地步。启用这些复杂的人工智能技术在小型硬件环境中仍然是一个挑战,但如果技术在过去几十年中继续保持这种趋势,那么这对于物联网设备来说很快就会成为问题。一旦我们达到这一点,我敢打赌,我们将看到应用人工智能在各种用例中的增长。

4. 各种渠道的欺诈数量增加

我不了解你,但我个人的个人手机号码和 WhatsApp 帐户中的垃圾短信显着增加。好消息是,大多数人都能够很容易地检测出什么是欺诈与什么是真实的,但挑战将会到来,不幸的是,检测真正的假货可能会变得越来越困难。以“深度造假”为例。迄今为止,我们还真的没有看到像“深度伪造”视频这样的重大事件真的引起了麻烦。这主要是因为人们相对擅长检测视频何时是“深度伪造”视频。 (例如不自然的动作、声音和嘴巴动作之间的不匹配等)但与任何技术一样,随着时间的推移,事情会变得更好。我收到的那些假短信会变得越来越逼真,我敢打赌,“深度假”视频最终会变得与真实视频无法区分。

有很多方法可以抵制欺诈活动,当然,我希望人工智能/机器学习成为我们能够用来更好地检测这种欺诈的工具之一。我什至可以看到某种网络安全/数据科学组合角色成为未来的主流角色,利用数据科学实践与网络安全实践相结合来打击所有这些不同类型的欺诈行为。如果您是任一领域的从业者,那么在相反的领域提高技能会让您受益匪浅,这样您就可以很好地为这些潜在的新工作角色定位。

3. Ethical AI

在过去的五年中,我们已经开始看到对负责任地使用消费者数据的巨大推动。例如,仅在 2018 年,我们就看到了主要立法:加利福尼亚州的《加利福尼亚州消费者隐私法》(CCPA) 和欧盟的《通用数据保护条例》(GDPR)。这是两项开创性的立法,我个人同意这些是朝着正确方向迈出的一步。通过数据滥用消费者隐私太容易了,所以我非常希望这种趋势在人工智能和机器学习等数据科学领域继续下去。[0][1]

好消息是,你可以——我认为应该——减轻你今天工作中不道德的人工智能做法。虽然常识会让你在制定合乎道德的 AI 实践方面走得很远,但有很多很棒的资源可以帮助你更好地理解其中一些更“灰色地带”。在美国,您可以查看美国平等就业机会委员会 (EEOC) 等政府网站,以获得有关“受保护类别”等问题的明确答案,您可以合理地假设在创建自己的预测模型时应该尊重这些问题。许多组织(尤其是大型组织)也有自己的法律团队和外部验证小组,他们通常精通道德最佳实践。如有疑问,请不要害怕咨询这些团体之一。他们应该能够就如何解决这些“灰色地带”为您提供明确的建议,以便您可以创建一个有效且合乎道德的 AI 模型。[0]

2. MLOps

因为应用数据科学仍处于起步阶段,我们并没有过多担心模型退化。鉴于对于许多用例而言,新训练的预测模型通常在数月或数年内保持性能,被推断的基础数据并没有太大变化。但这并不意味着数据永远不会改变,在行业部署这些模型七年左右之后,我不得不相信它们中的许多不再像最初接受训练时那样表现出色。

对于许多公司,尤其是维护成百上千个模型的公司来说,这正成为一个巨大的问题。考虑到以下因素,重新训练和重新部署模型的能力是一项重大挑战……

  • 员工离开公司,因此关于如何训练模型的知识也消失了
  • 最初用于训练模型的原始数据和/或代码已丢失
  • 没有足够的人来为现有模型提供服务并创建新模型。

MLOps 试图通过创建这种无缝流程来解决这些问题,该流程可以训练、部署并定期验证模型在生产中的性能。如果模型经历衰减或漂移,则 MLOps 管道应该能够自动重新训练/重新部署模型。显然,这对这些拥有许多模型的公司来说是一个巨大的福音,所以虽然现在感觉 MLOps 已经是一个很大的话题,但我真诚地相信,我们才刚刚开始在企业级水平上真正成熟这些实践。启用 MLOps 的最大挑战在于,它在很大程度上需要工程技能,这将我们带到了我们的最终趋势……

1. 对全栈数据科学家的需求不断增长

我在介绍中提到,我定期指导各种希望进入数据科学领域的人,其中还包括定期查看职位发布,以了解员工的需求。毫无疑问,在这些数据科学角色的需求方面,传统高等教育和专业公司之间存在巨大的脱节。具体来说,数据科学项目似乎并没有教授如何部署预测模型。我指导过许多你能想到的知名大学的学生,每个学生都告诉我同样的事情:他们专注于如何构建模型或创建算法,但几乎没有时间花在如何实际实施它们上。现实世界的使用。从我与之交谈的每个新人那里一遍又一遍地听到同样的情绪,真是令人震惊!

一些公司试图通过聘请软件工程师代表数据科学家执行此实施来回答这个问题,但不幸的现实是,为了有效地部署预测性 AI 模型(尤其是使用 MLOps 原则),软件工程师确实需要了解数据科学家会理解的原则。没有这种背景的软件工程师充其量只能做得很好,但我个人从未见过任何软件工程师成功部署完全启用的 MLOps 管道。需要明确的是,这并不是对一般软件工程师的打击。只是这确实是一个双重技能,所以要求数据科学家也有足够强大的软件工程技能来部署他们自己的模型是很重要的。

但是,尽管这是一个很高的要求,但我今天已经在我的职位发布中看到了这一点。此外,如果我们真的要像许多人预测的那样陷入衰退,那么许多公司自然倾向于“事半功倍”,这意味着要求他们的数据科学家保持“全栈”技能,以便他们能够还部署自己的预测模型。是的,向个人提出要求绝对是一项具有挑战性的要求,但我可以看到它越来越成为常态。

这篇文章到此结束!您是否同意此列表,或者这是您可能添加的另一个趋势?在评论中分享您的想法!我很想听听你的想法。感谢您的阅读,我们下一篇文章再见。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年6月14日 下午3:20
下一篇 2022年6月14日 下午3:29

相关推荐