双非生物医学硕士放弃研究院工作,零基础转型大数据开发

点击上方 "大数据肌肉猿"关注, 星标一起成长

点击下方链接,进入高质量学习交流群

今日更新| 1052个转型案例分享-大数据交流群

d7d7306034958a8816a318ea4bdbcf20.png

分享学习群一位同学的大数据求职转型经验,他本科是二本机械方向,研究生是一本生物医学方向,原本考研就是为了转到计算机方向,因为分数不够调剂了。随后家里人也给安排了相关医学院研究工作,但他放弃了,自学了大数据拿到米哈游58同城、比亚迪吉利、美的蓝月亮等offer。

个人背景:

本科是不知名的二本院校,研究生是东北一所一本院校,导师的方向是生物信息和医学图像处理。我本科的方向是机械工程,研究生的方向是医学图像处理,在2022年10月成功的发表了一篇sci二区的期刊论文。

在2022年7月,我收到了米哈游、第四范式等公司的实习offer。由于要在8月回复论文审稿人的意见,家里人安排了一所研究院进行实习。但是在研究生学习过程中、实习过程中,发现自己不太适合科研,学历也没有优势。

之前在考研二战期间,由于想转开发方向就认识了峰哥,后来也在峰哥的指导下,我学习了一系列大数据相关的知识,最终在秋招拿到了58等公司的offer。

学习过程:

我是2019年的时候偶然看到了峰哥的公众号,那时候在考研失利,有些迷茫,通过刷完峰哥的大数据转型案例,了解到众多同学在峰哥的指导下,进入到互联网大厂。那时候面临着春招,我十分迫切,找到峰哥了解了学习路径。

峰哥根据我的个人情况帮我规划了学习路径,我在学完hadoop后,家里人催着考研,于是重新进入到考研队伍中,然后被调剂到了东北一所一本院校。

在研一期间,对算法有些憧憬,甚至还有读博的念头,使得我没有坚持按照峰哥规划的学习路线继续学习。当我经历了研一的科研生活,了解到国内的科研状况和算法的就业形势,使得我失去了科研和算法的热情。

于是,我在研二重新开启了大数据的学习,前期由于在写论文,进度比较慢,在2022年才开启数仓项目、spark、以及spark项目的学习。(根据我的经验教训,这里建议大家不要战线拖太久,不要拖沓,持续学习)

实习简历投递:

我是4月份投稿的论文,所以我很晚才投实习岗位。4月11日开始准备实习的面经,然后找峰哥修改简历,5月底开始投实习岗位。(根据我的经验教训,这里建议大家提前准备面经,并且大多数的公司实习岗位是2月、3月就开始了,我投的时候已经没有几点公司招实习岗位了,大部分招聘的实习岗位还是外包。

要多进行面试,不要害怕面经没有背好,面经是背不完的,到了后期(包括秋招),我发现大部分公司问的问题都有点类似,在面试的过程中去丰富面经。)

大致情况:

offer:米哈游、华云慧通、华大基因、第四范式

面试挂:好未来、煜象科技、北明数科

(1)好未来(已挂)

① UDTF函数

② 维度建模

③ hive sql 窗口函数(有一个用户,计算每个月的累计薪资是多少?一月份赚了3000,二月份赚了6000,想二月份变成9000,每一次都是累加的)

④ 拉链表

(2)煜象科技(已挂)

① 自我介绍

② 介绍项目

③ 项目中使用了哪些算子函数

④ hive sql 使用了哪些函数

⑤ 数仓创建了哪些表

⑥ 使用了哪些action算子

⑦ spark、hive数据倾斜

⑧ hive表的类型

⑨ hive的存储格式

⑩ yarn的资源调度

(3)北明数科(已挂)

① 自我介绍

② 项目介绍

③ sqoop调度(数据迁移)

④ 如何从mysql中读取数据到hive中

⑤ 数仓每一层的表是如何体现的

⑥ hive 注册UDF的过程

⑦ 在哪操作hive sql的(定时shell)

⑧ 为什么要选择列式存储?

⑨ 列式存储的适用场景

⑩ yarn的job提交流程

⑪ java 中的集合——map接口和collection接口

⑫ java 树结构的应用(hashmap使用了红黑树)

⑬ 完全二叉树的概念——叶子结点只能出现在最下层和次下层,且最下层的叶子结点集中在树的左部。

秋招简历投递:

在7月和8月,我在修改论文,回复审稿人意见,错失了良机,没有及时的投递提前批。等到9月初才开始投正式批,一开始投的时候还挑三拣四,一天只投了一两家,导致我在九月中旬就面试完两三家后,到十月中旬都属于“空窗期”,没有任何笔试和面试。

在九月下旬,才开始着急,然后再疯狂的投递简历。根据我的经验教训,这里建议大家要把握住提前批和正式批一开始的时候,可以先投一些公司,不要全投也不要都不投。

正式批总共投了116家公司,笔试了39家公司(包括6家银行),面试了25家公司(包括4家银行,大部分是市级的分行,听说要轮岗几年,基本放弃了),收到10家公司的offer(58、比亚迪吉利等)。

大致情况:

loffer:58同城、比亚迪吉利汽车、蓝鸽蓝月亮美的,茄子科技,还有几家银行

(1)茄子科技

1)一面:

① 自我介绍

② 实习介绍

③ kafka消息丢失重复问题

④ kafka防止不丢失

⑤ 大数据行业,要解决什么问题?那么大的数据量,会给我们带来什么问题?——数据存储问题、分类问题、数据采集问题、数据仓库问题(结构化的数据)、数据计算问题(hadoop、mapreduce、hive、spark)

⑥ kafka在大数据领域的作用是什么——削峰和缓存

⑦ 什么场景需要会使用kafka——消息队列、数据采集、流式处理

⑧ 什么是数据湖——是一个集中式存储库,一个以原生格式存储各种大规模原始数据集的数据库,它允许以任何规模存储所有结构化和非结构化数据。

⑨ 实现一个数据湖,需要解决什么问题?——数据导入、数据消费、数据治理、数据安全、数据存储等

⑩ hive与mapreduce有什么区别

⑪ hive架构

2)二面:

① 自我介绍

② 数据仓库分哪些层

③ 为什么要对数据仓库分层

④ 数据量大小

⑤ hive与mysql有什么区别

⑥ hive的架构

⑦ 介绍一下spark,常用的算子(行动算子、转换算子)

⑧ rdd、dataframe、dataset的区别

⑨ 实习

(2)58同城

1)一面:

① 自我介绍

② mapreduce工作原理

③ shuffle过程

④ mapreduce中的reduce task数量、map task数量以及partition怎么计算出来的

⑤ 为什么对数仓进行分层

⑥ 维度建模

⑦ 星型模型与雪花模型的区别

⑧ spark数据倾斜遇到的场景

⑨ kafka消息挤压问题

⑩ 在项目中sparkStreaming实时做什么功能?

⑪ sparkStreaming计算完的数据是存放在什么地方?(mysql)

⑫ 建议学习flink

2)二面:

① 自我介绍

② 在实习、项目过程中遇到了什么困难

③ 对大数据哪一块比较了解?工作原理?

④ hive为什么要两个计划?物理计划和逻辑执行计划?这两个有什么区别?

⑤ kafka消息丢失和重复问题

⑥ 大数据中为什么会用kafka,不用其他消息队列的组件呢

⑦ 遇到的技术挑战(hive数据倾斜)

⑧ 业界最近的一些技术(数据湖)

(3)吉利

① 自我介绍

② 项目介绍

③ 数据量

④ hive sql执行了多少时间

⑤ hive 数仓分层,每层的含义

⑥ kafka消息挤压

⑦ kafka消息丢失与重复问题

⑧ spark数据倾斜问题

⑨ 小文件过多,文件分配不均与的问题(spark)

⑩ sql窗口函数以及之间的区别

⑪ 手撕spark代码:wordcount

⑫ 实习经历

⑬ 学校、实习团队沟通是否以接触老师为主,有木有除了导师以外的人

大家会发现,其实我的面试基本也是围绕着hive、spark、kafka等几个点来进行的,有些时候面试官会问一些发散性的问题,这些问题我也会往我知道的,背过的面经上靠。

并且,面试官主要是根据我们的简历来提问,所以,我们要根据简历中项目涉及到的知识点,然后根据面经来提前准备;hr面最好也要提前准备一下,准备一下hr经常会问的一些问题。

总结:

能在本科求职尽量在本科完成,目前市场来看经验比学历更重要。因为考研错过了好几年,大家不要像我这样拖沓,一定提早准备,越早越好,因为过程会有各种不确定因素影响学习,希望我的经历能对大家有所启发。

虽然我签的公司不属于互联网大厂,但还算比较满意。最后要感谢峰哥,我经常找峰哥咨询学习路线和面试问题。在峰哥的帮助下,我在大数据的学习过程中也没有走太多的弯路。

–end–

扫描下方二维码

添加好友,备注【交流】
可围观朋友圈,也可私信交流

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年2月26日
下一篇 2023年2月26日

相关推荐