百万网友AI导师李沐离职投身大模型,B站“组会”还会有吗?(文末赠书)

目录

前阵子“沐神”李沐离开亚马逊、加入创业公司BosonAI的消息,引起了业内比较广泛的讨论。

而BosonAI的创始人正好是他的博士生导师亚历克斯·斯莫拉(Alex Smola),还在建设的官网信息显示公司是做AI大模型方向的研究。看来ChatGPT的爆火让人们意识到,加大模型、加多参数的效果着实惊人,很多人都跃跃欲试准备大展身手。

他本人则在B站表示,去年12月已经提了离职

李沐备受关注,除了机器学习领域顶级大佬身份之外,他还一直身体力行、平等地向更多普通人分享传递技术知识,名气更盛非常出圈。

比如他在B站开设的各种机器学习课程与精读论文等视频,就有1700多万人次观看!大家每次打开B站视频就像开组会一样,收获满满。

而他之所以被称为“沐神”,答案就藏在那“开挂”般的求学、职业之路中。

1 求学之路:全能学霸

李沐还不是“沐神”的时候,就已经在上海交通大学留下了“沐哥”的传说。

他一直很喜欢数学,但在上大学前并没有过多接触计算机。还好上交大ACM班能很好地让他发挥强大的数学能力,作为学霸他面对海量代码练习也丝毫不怵,学习之外在球场上、游戏中更是属于“大神”级的人物,大学阶段过得可谓风生水起。

正是这种既能在智商上碾压众人,又能在游戏、运动等方面高人一等的表现,让“沐哥”这一称号留在了上海交大。硕士研究生阶段,他依然在上海交大度过。

正是在ACM班,李沐初次接触人工智能(AI),并推开了那扇他以后在其中大有作为的AI世界大门。尽管彼时计算机已经是一个非常好就业的行业,但秉承着ACM班“培养计算机科学家”的理念,他毕业后选择继续学习AI,到香港科技大学进修了一年。

2011年,他尝试申请了一些美国名校的博士,但收到的offer并没有特别合适的导师,就受邀投奔百度的师兄戴文渊了。

在百度商务搜索部门,他主要使用机器学习来预测一个广告是不是会被用户点击。不同于学校的实验室,百度拥有更多的硬件资源和数据,让他能够大显身手尝试各种算法与模型,有时候为了5%的性能提升要写上千行代码。

尽管这种行为有着过度设计的意味,但深入研究细节对他个人能力的提升是巨大的,在项目中遭遇到的一些问题也成为他日后研究的方向之源。

那时候深度学习才刚出来不久,但他总觉得这一技术可能是大规模机器学习的未来,一直深切关注着。

李沐打造的这套系统最后上线,在百度广告流量中发挥了巨大的作用。

2 AI之路:与深度学习结缘

2011年年底,他现在的妻子被麻省理工学院(MIT)录取,为了不异国恋,他顺手给MIT和卡内基梅隆大学(CMU)寄了博士申请资料,然后收到了CMU的offer。

那时候他还有点纠结要不要去,在得知机器学习大佬亚历克斯·斯莫拉将要去CMU任职后,便下定了决心:去!


2012年8月,李沐早上在百度开完会,中午办完离职就直奔机场。空中旅程完毕在匹兹堡落地后,他既不知道CMU该怎么走,也没有找到住的地方,可谓和他对未来的感受一样:一片迷茫,但充满乐观。

后来到了学校上课的时候,他的导师亚历克斯·斯莫拉还在谷歌任职,就把他扔给了分布式领域大佬大卫·安德森(Dave Andersen)。就这样,他一边学习分布式系统,一边学习机器学习。

第一年他最大的收获来自课程“高级分布式系统”,“读然后讨论论文”的上课方式让他受益匪浅,因为那不仅是关于知识,还有很多是对设计理念的领悟。精读论文也成为他日后向大家分享知识的一种方式。

后来学习逐渐进入正轨,李沐在两位大佬的指导下迅速成长,在机器学习和分布式系统上有了自己的理解,但有些想法似乎并不能被大家接受。

当时他们的一项工作是关于如果划分数据和计算使得减少机器学习求解中的网络通信量,在找到一个较好的算法并用了两个月去优化、分析然后把论文写出来之后,却发表无门。

在谷歌实习期间,他尝试用用户的GPS数据进行用户行为建模,但当时隐私问题刚好处于风口浪尖,写的文章删了一大半才得以在谷歌发表。

后来他又基于在百度期间写的算法做了分析和改进,写的一篇关于分布式下不保证数据的及时性来提升系统性能的文章,被NIPS(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)拒绝了。

他有些沮丧,又碰上一门听不太懂的机制设计课程,压力山大。

3 一战封神:亚马逊首席科学家

在导师的指导下,他在写作和报告上花了更多心思,文章才在计算机顶级会议OSDI(Operating Systems Design and Implementation,操作系统设计与实现研讨会)和NIPS上发表。

情况有了好转,李沐安下心来做自己想做的事情。

然后他加入了百度的“少帅计划”入坑深度学习,着手从CXXNet开始研究分布式深度学习框架,跑一些Alexnet之类的实验。后来CXXNet发展到虽然能用但灵活性不足,李沐就牵头把它和另一个项目结合在一起,成立了MXNet项目。

MXNet项目进展非常顺利,很快开源发布并获得了不错的反响,在当时人人讲深度学习的情况下备受关注。后来媒体的吹嘘报道和一片点赞声让他有些飘飘然,但也迅速警醒:相比简单的吹嘘,真诚的分享更重要。

他开始认真地向大家分享干货知识,“沐神”之称也逐渐普及。

尽管当时TensorFlow的开源让他倍感压力,但也让他领悟到一点:与其过分关心和担忧对手,不如把精力集中在自己做得更好。

2016年年底,在MXNet开源一年后,亚马逊宣布正式将它作为官方使用的深度学习框架。

亚马逊的支持让李沐和团队的压力少了许多,也加快了MXNet的发展和推广。为了让MXNet发展得更好,他投桃报李地去了亚马逊兼职开发MXNet和AWS上深度学习的应用。

“沐神”在学术与应用上都积累了丰富的经验与人脉资源。

后来在他博士答辩委员会成员中,既有谷歌、亚马逊和苹果的AI负责人,又有他兼职公司的领导人,都是从学术界跑到工业界的AI大佬。

在得知他想继续在学术界发展的时候,大佬们纷纷指出:搞学术又忙又穷,跟我们干,有钱!

其实在毕业之前,他也从学术界去往工业界参与过创业,拿了几十万的天使投资就和导师们干得风风火火,后来被一个上市公司看中并收购了。但因为理念不一致,他们陆续退出了,创业体验卡到期。

思来想去,最终他选择了亚马逊。

彼时亚马逊的人工智能部门成立不久,正是MXNet大放异彩的时候,李沐的机器学习经验更是大有作为。

与之前单搞技术不同,随着他的能力增长,亚马逊对他的责任期望也越大,他开始关注团队与产品。还好他为此做好了准备,并且给出了一份非常好的答卷,最终成为亚马逊的首席科学家。

他在总结自己工作5年的时候,只用了一句话:专注最有价值的事情。他认为对一件事的价值认识不能局限当下,要放眼未来。在对未来逐渐有把握的时候,调动资源专注到那一件事上,然后把它做好。

如果一生中能做好几件有着极大价值的事,那也就值了。

从上海交大ACM班到CMU博士,从百度到亚马逊,李沐从初窥AI门径,到开发深度学习框架MXNet,慢慢成为AI领域举足轻重的机器学习科学家。

“沐神”之称名副其实。

4 动手学习深度学习

当然“沐神”并不是一开始就全能,在早期发布MXNet的时候他就经常被吐槽文档写不好。

但他并没有逃避短板,而是痛定思痛把部分做技术的时间挤出来写文档,就是为了让大家能更轻松地读懂技术,然后去使用。

在这种情况下,《动手学深度学习》横空出世,并成为现在200多所大学的相关课程教材。

有得必有失,占据了研发的时间去写文档,MXNet的性能与易用性就缺乏更好的提升,以至于没有做到领域前二。

也许从用户价值上来说产品可能大于教材,但从教育价值上来说教材是大于产品的,很难直接说两者孰轻孰重。

不过对“沐神”B站近50万粉丝和广大关注他的人来说,教材、教程的价值肯定是大于一个深度学习框架的。


好的教程与教材对大家学习的效率提升效果不言而喻,这也是无数粉丝亲切地叫“沐神”为导师的缘故。

在PyTorch流行起来有不可挡之势的时候,有很多读者期望“沐神”的《动手学深度学习》出一个相应的版本。现在,《动手学深度学习(PyTorch版)》应声而来。

作为《动手学深度学习》的重磅升级版本,本书不仅选用了PyTorch提升交互式学习体验,更重新修订了所有内容,针对AI技术的发展新增了注意力机制、预训练等内容。

本书不仅降低了学习门槛,让初学者能更快上手,也让理论与技术结合,帮助大家在学理论方法的同时掌握技术落地并可以应用到实际生产中,可谓一举多得。

就像“沐神”在一期视频中所说“GPT时代AI怎么学?动手学就是了!”

深度学习也一样,动手学就是了。

《动手学深度学习(PyTorch版)》不仅能让我们在技术层面正确认识GPT,也能更清晰地从发展中掌握一些规律,更好地去适应时代、引领时代,而不是摊手放弃被时代淘汰。

豆瓣评分9.1,相信这本书可以成为大家开始或者深入了解深度学习的入场券。


本文赠书四本,规则如下

【抽奖方式】

  1. 关注博主,点赞收藏文章,并做出有效评论
  2. 根据评论记录随机抽取4位用户赠送实体图书
  3. 截止日期:7.23日晚8点,届时通过blink公布获奖信息,请中奖用户及时私信

🔥 更多精彩专栏


👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年7月28日
下一篇 2023年7月28日

相关推荐