点击上方 "大数据肌肉猿"关注, 星标一起成长
点击下方链接,进入高质量学习交流群
分享学习群一位同学的大数据求职转型经验,他本科是二本机械方向,研究生是一本生物医学方向,原本考研就是为了转到计算机方向,因为分数不够调剂了。随后家里人也给安排了相关医学院研究工作,但他放弃了,自学了大数据拿到米哈游58同城、比亚迪吉利、美的蓝月亮等offer。
个人背景:
本科是不知名的二本院校,研究生是东北一所一本院校,导师的方向是生物信息和医学图像处理。我本科的方向是机械工程,研究生的方向是医学图像处理,在2022年10月成功的发表了一篇sci二区的期刊论文。
在2022年7月,我收到了米哈游、第四范式等公司的实习offer。由于要在8月回复论文审稿人的意见,家里人安排了一所研究院进行实习。但是在研究生学习过程中、实习过程中,发现自己不太适合科研,学历也没有优势。
之前在考研二战期间,由于想转开发方向就认识了峰哥,后来也在峰哥的指导下,我学习了一系列大数据相关的知识,最终在秋招拿到了58等公司的offer。
学习过程:
我是2019年的时候偶然看到了峰哥的公众号,那时候在考研失利,有些迷茫,通过刷完峰哥的大数据转型案例,了解到众多同学在峰哥的指导下,进入到互联网大厂。那时候面临着春招,我十分迫切,找到峰哥了解了学习路径。
峰哥根据我的个人情况帮我规划了学习路径,我在学完hadoop后,家里人催着考研,于是重新进入到考研队伍中,然后被调剂到了东北一所一本院校。
在研一期间,对算法有些憧憬,甚至还有读博的念头,使得我没有坚持按照峰哥规划的学习路线继续学习。当我经历了研一的科研生活,了解到国内的科研状况和算法的就业形势,使得我失去了科研和算法的热情。
于是,我在研二重新开启了大数据的学习,前期由于在写论文,进度比较慢,在2022年才开启数仓项目、spark、以及spark项目的学习。(根据我的经验教训,这里建议大家不要战线拖太久,不要拖沓,持续学习)
实习简历投递:
我是4月份投稿的论文,所以我很晚才投实习岗位。4月11日开始准备实习的面经,然后找峰哥修改简历,5月底开始投实习岗位。(根据我的经验教训,这里建议大家提前准备面经,并且大多数的公司实习岗位是2月、3月就开始了,我投的时候已经没有几点公司招实习岗位了,大部分招聘的实习岗位还是外包。
要多进行面试,不要害怕面经没有背好,面经是背不完的,到了后期(包括秋招),我发现大部分公司问的问题都有点类似,在面试的过程中去丰富面经。)
大致情况:
offer:米哈游、华云慧通、华大基因、第四范式
面试挂:好未来、煜象科技、北明数科
(1)好未来(已挂)
① UDTF函数
② 维度建模
③ hive sql 窗口函数(有一个用户,计算每个月的累计薪资是多少?一月份赚了3000,二月份赚了6000,想二月份变成9000,每一次都是累加的)
④ 拉链表
(2)煜象科技(已挂)
① 自我介绍
② 介绍项目
③ 项目中使用了哪些算子函数
④ hive sql 使用了哪些函数
⑤ 数仓创建了哪些表
⑥ 使用了哪些action算子
⑦ spark、hive数据倾斜
⑧ hive表的类型
⑨ hive的存储格式
⑩ yarn的资源调度
(3)北明数科(已挂)
① 自我介绍
② 项目介绍
③ sqoop调度(数据迁移)
④ 如何从mysql中读取数据到hive中
⑤ 数仓每一层的表是如何体现的
⑥ hive 注册UDF的过程
⑦ 在哪操作hive sql的(定时shell)
⑧ 为什么要选择列式存储?
⑨ 列式存储的适用场景
⑩ yarn的job提交流程
⑪ java 中的集合——map接口和collection接口
⑫ java 树结构的应用(hashmap使用了红黑树)
⑬ 完全二叉树的概念——叶子结点只能出现在最下层和次下层,且最下层的叶子结点集中在树的左部。
秋招简历投递:
在7月和8月,我在修改论文,回复审稿人意见,错失了良机,没有及时的投递提前批。等到9月初才开始投正式批,一开始投的时候还挑三拣四,一天只投了一两家,导致我在九月中旬就面试完两三家后,到十月中旬都属于“空窗期”,没有任何笔试和面试。
在九月下旬,才开始着急,然后再疯狂的投递简历。根据我的经验教训,这里建议大家要把握住提前批和正式批一开始的时候,可以先投一些公司,不要全投也不要都不投。
正式批总共投了116家公司,笔试了39家公司(包括6家银行),面试了25家公司(包括4家银行,大部分是市级的分行,听说要轮岗几年,基本放弃了),收到10家公司的offer(58、比亚迪吉利等)。
大致情况:
loffer:58同城、比亚迪吉利汽车、蓝鸽蓝月亮美的,茄子科技,还有几家银行
(1)茄子科技
1)一面:
① 自我介绍
② 实习介绍
③ kafka消息丢失重复问题
④ kafka防止不丢失
⑤ 大数据行业,要解决什么问题?那么大的数据量,会给我们带来什么问题?——数据存储问题、分类问题、数据采集问题、数据仓库问题(结构化的数据)、数据计算问题(hadoop、mapreduce、hive、spark)
⑥ kafka在大数据领域的作用是什么——削峰和缓存
⑦ 什么场景需要会使用kafka——消息队列、数据采集、流式处理
⑧ 什么是数据湖——是一个集中式存储库,一个以原生格式存储各种大规模原始数据集的数据库,它允许以任何规模存储所有结构化和非结构化数据。
⑨ 实现一个数据湖,需要解决什么问题?——数据导入、数据消费、数据治理、数据安全、数据存储等
⑩ hive与mapreduce有什么区别
⑪ hive架构
2)二面:
① 自我介绍
② 数据仓库分哪些层
③ 为什么要对数据仓库分层
④ 数据量大小
⑤ hive与mysql有什么区别
⑥ hive的架构
⑦ 介绍一下spark,常用的算子(行动算子、转换算子)
⑧ rdd、dataframe、dataset的区别
⑨ 实习
(2)58同城
1)一面:
① 自我介绍
② mapreduce工作原理
③ shuffle过程
④ mapreduce中的reduce task数量、map task数量以及partition怎么计算出来的
⑤ 为什么对数仓进行分层
⑥ 维度建模
⑦ 星型模型与雪花模型的区别
⑧ spark数据倾斜遇到的场景
⑨ kafka消息挤压问题
⑩ 在项目中sparkStreaming实时做什么功能?
⑪ sparkStreaming计算完的数据是存放在什么地方?(mysql)
⑫ 建议学习flink
2)二面:
① 自我介绍
② 在实习、项目过程中遇到了什么困难
③ 对大数据哪一块比较了解?工作原理?
④ hive为什么要两个计划?物理计划和逻辑执行计划?这两个有什么区别?
⑤ kafka消息丢失和重复问题
⑥ 大数据中为什么会用kafka,不用其他消息队列的组件呢
⑦ 遇到的技术挑战(hive数据倾斜)
⑧ 业界最近的一些技术(数据湖)
(3)吉利
① 自我介绍
② 项目介绍
③ 数据量
④ hive sql执行了多少时间
⑤ hive 数仓分层,每层的含义
⑥ kafka消息挤压
⑦ kafka消息丢失与重复问题
⑧ spark数据倾斜问题
⑨ 小文件过多,文件分配不均与的问题(spark)
⑩ sql窗口函数以及之间的区别
⑪ 手撕spark代码:wordcount
⑫ 实习经历
⑬ 学校、实习团队沟通是否以接触老师为主,有木有除了导师以外的人
大家会发现,其实我的面试基本也是围绕着hive、spark、kafka等几个点来进行的,有些时候面试官会问一些发散性的问题,这些问题我也会往我知道的,背过的面经上靠。
并且,面试官主要是根据我们的简历来提问,所以,我们要根据简历中项目涉及到的知识点,然后根据面经来提前准备;hr面最好也要提前准备一下,准备一下hr经常会问的一些问题。
总结:
能在本科求职尽量在本科完成,目前市场来看经验比学历更重要。因为考研错过了好几年,大家不要像我这样拖沓,一定提早准备,越早越好,因为过程会有各种不确定因素影响学习,希望我的经历能对大家有所启发。
虽然我签的公司不属于互联网大厂,但还算比较满意。最后要感谢峰哥,我经常找峰哥咨询学习路线和面试问题。在峰哥的帮助下,我在大数据的学习过程中也没有走太多的弯路。
–end–
扫描下方二维码
添加好友,备注【交流】
可围观朋友圈,也可私信交流
文章出处登录后可见!