双非生物医学硕士放弃研究院工作，零基础转型大数据开发

点击上方 "大数据肌肉猿"关注, 星标一起成长

点击下方链接，进入高质量学习交流群

分享学习群一位同学的大数据求职转型经验，他本科是二本机械方向，研究生是一本生物医学方向，原本考研就是为了转到计算机方向，因为分数不够调剂了。随后家里人也给安排了相关医学院研究工作，但他放弃了，自学了大数据拿到米哈游58同城、比亚迪吉利、美的蓝月亮等offer。

个人背景：

本科是不知名的二本院校，研究生是东北一所一本院校，导师的方向是生物信息和医学图像处理。我本科的方向是机械工程，研究生的方向是医学图像处理，在2022年10月成功的发表了一篇sci二区的期刊论文。

在2022年7月，我收到了米哈游、第四范式等公司的实习offer。由于要在8月回复论文审稿人的意见，家里人安排了一所研究院进行实习。但是在研究生学习过程中、实习过程中，发现自己不太适合科研，学历也没有优势。

之前在考研二战期间，由于想转开发方向就认识了峰哥，后来也在峰哥的指导下，我学习了一系列大数据相关的知识，最终在秋招拿到了58等公司的offer。

学习过程：

我是2019年的时候偶然看到了峰哥的公众号，那时候在考研失利，有些迷茫，通过刷完峰哥的大数据转型案例，了解到众多同学在峰哥的指导下，进入到互联网大厂。那时候面临着春招，我十分迫切，找到峰哥了解了学习路径。

峰哥根据我的个人情况帮我规划了学习路径，我在学完hadoop后，家里人催着考研，于是重新进入到考研队伍中，然后被调剂到了东北一所一本院校。

在研一期间，对算法有些憧憬，甚至还有读博的念头，使得我没有坚持按照峰哥规划的学习路线继续学习。当我经历了研一的科研生活，了解到国内的科研状况和算法的就业形势，使得我失去了科研和算法的热情。

于是，我在研二重新开启了大数据的学习，前期由于在写论文，进度比较慢，在2022年才开启数仓项目、spark、以及spark项目的学习。（根据我的经验教训，这里建议大家不要战线拖太久，不要拖沓，持续学习）

实习简历投递：

我是4月份投稿的论文，所以我很晚才投实习岗位。4月11日开始准备实习的面经，然后找峰哥修改简历，5月底开始投实习岗位。（根据我的经验教训，这里建议大家提前准备面经，并且大多数的公司实习岗位是2月、3月就开始了，我投的时候已经没有几点公司招实习岗位了，大部分招聘的实习岗位还是外包。

要多进行面试，不要害怕面经没有背好，面经是背不完的，到了后期（包括秋招），我发现大部分公司问的问题都有点类似，在面试的过程中去丰富面经。）

大致情况：

offer：米哈游、华云慧通、华大基因、第四范式

面试挂：好未来、煜象科技、北明数科

(1)好未来（已挂）

①　UDTF函数

②　维度建模

③　hive sql 窗口函数（有一个用户，计算每个月的累计薪资是多少？一月份赚了3000，二月份赚了6000，想二月份变成9000，每一次都是累加的）

④　拉链表

(2)煜象科技（已挂）

①　自我介绍

②　介绍项目

③　项目中使用了哪些算子函数

④　hive sql 使用了哪些函数

⑤　数仓创建了哪些表

⑥　使用了哪些action算子

⑦　spark、hive数据倾斜

⑧　hive表的类型

⑨　hive的存储格式

⑩　yarn的资源调度

(3)北明数科（已挂）

①　自我介绍

②　项目介绍

③　sqoop调度（数据迁移）

④　如何从mysql中读取数据到hive中

⑤　数仓每一层的表是如何体现的

⑥　hive 注册UDF的过程

⑦　在哪操作hive sql的（定时shell）

⑧　为什么要选择列式存储？

⑨　列式存储的适用场景

⑩　yarn的job提交流程

⑪　java 中的集合——map接口和collection接口

⑫　java 树结构的应用（hashmap使用了红黑树）

⑬　完全二叉树的概念——叶子结点只能出现在最下层和次下层，且最下层的叶子结点集中在树的左部。

秋招简历投递：

在7月和8月，我在修改论文，回复审稿人意见，错失了良机，没有及时的投递提前批。等到9月初才开始投正式批，一开始投的时候还挑三拣四，一天只投了一两家，导致我在九月中旬就面试完两三家后，到十月中旬都属于“空窗期”，没有任何笔试和面试。

在九月下旬，才开始着急，然后再疯狂的投递简历。根据我的经验教训，这里建议大家要把握住提前批和正式批一开始的时候，可以先投一些公司，不要全投也不要都不投。

正式批总共投了116家公司，笔试了39家公司（包括6家银行），面试了25家公司（包括4家银行，大部分是市级的分行，听说要轮岗几年，基本放弃了），收到10家公司的offer（58、比亚迪吉利等）。

大致情况：

loffer：58同城、比亚迪吉利汽车、蓝鸽蓝月亮美的，茄子科技，还有几家银行

(1)茄子科技

1)一面：

①　自我介绍

②　实习介绍

③　kafka消息丢失重复问题

④　kafka防止不丢失

⑤　大数据行业，要解决什么问题？那么大的数据量，会给我们带来什么问题？——数据存储问题、分类问题、数据采集问题、数据仓库问题（结构化的数据）、数据计算问题（hadoop、mapreduce、hive、spark）

⑥　kafka在大数据领域的作用是什么——削峰和缓存

⑦　什么场景需要会使用kafka——消息队列、数据采集、流式处理

⑧　什么是数据湖——是一个集中式存储库,一个以原生格式存储各种大规模原始数据集的数据库,它允许以任何规模存储所有结构化和非结构化数据。

⑨　实现一个数据湖，需要解决什么问题？——数据导入、数据消费、数据治理、数据安全、数据存储等

⑩　hive与mapreduce有什么区别

⑪　hive架构

2)二面：

①　自我介绍

②　数据仓库分哪些层

③　为什么要对数据仓库分层

④　数据量大小

⑤　hive与mysql有什么区别

⑥　hive的架构

⑦　介绍一下spark，常用的算子（行动算子、转换算子）

⑧　rdd、dataframe、dataset的区别

⑨　实习

(2)58同城

1)一面：

①　自我介绍

②　mapreduce工作原理

③　shuffle过程

④　mapreduce中的reduce task数量、map task数量以及partition怎么计算出来的

⑤　为什么对数仓进行分层

⑥　维度建模

⑦　星型模型与雪花模型的区别

⑧　spark数据倾斜遇到的场景

⑨　kafka消息挤压问题

⑩　在项目中sparkStreaming实时做什么功能？

⑪　sparkStreaming计算完的数据是存放在什么地方？（mysql）

⑫　建议学习flink

2)二面：

①　自我介绍

②　在实习、项目过程中遇到了什么困难

③　对大数据哪一块比较了解？工作原理？

④　hive为什么要两个计划？物理计划和逻辑执行计划？这两个有什么区别？

⑤　kafka消息丢失和重复问题

⑥　大数据中为什么会用kafka，不用其他消息队列的组件呢

⑦　遇到的技术挑战（hive数据倾斜）

⑧　业界最近的一些技术（数据湖）

(3)吉利

①　自我介绍

②　项目介绍

③　数据量

④　hive sql执行了多少时间

⑤　hive 数仓分层，每层的含义

⑥　kafka消息挤压

⑦　kafka消息丢失与重复问题

⑧　spark数据倾斜问题

⑨　小文件过多，文件分配不均与的问题（spark）

⑩　sql窗口函数以及之间的区别

⑪　手撕spark代码：wordcount

⑫　实习经历

⑬　学校、实习团队沟通是否以接触老师为主，有木有除了导师以外的人

大家会发现，其实我的面试基本也是围绕着hive、spark、kafka等几个点来进行的，有些时候面试官会问一些发散性的问题，这些问题我也会往我知道的，背过的面经上靠。

并且，面试官主要是根据我们的简历来提问，所以，我们要根据简历中项目涉及到的知识点，然后根据面经来提前准备；hr面最好也要提前准备一下，准备一下hr经常会问的一些问题。

总结：

能在本科求职尽量在本科完成，目前市场来看经验比学历更重要。因为考研错过了好几年，大家不要像我这样拖沓，一定提早准备，越早越好，因为过程会有各种不确定因素影响学习，希望我的经历能对大家有所启发。

虽然我签的公司不属于互联网大厂，但还算比较满意。最后要感谢峰哥，我经常找峰哥咨询学习路线和面试问题。在峰哥的帮助下，我在大数据的学习过程中也没有走太多的弯路。

–end–

扫描下方二维码

添加好友，备注【交流】
可围观朋友圈，也可私信交流

文章出处登录后可见！

已经登录？立即刷新

双非生物医学硕士放弃研究院工作，零基础转型大数据开发

相关推荐