前面写了一些其他的想法,大家应该看看这本书! ! (●’◡’●)
内容
第三章 基础知识考察
统计和数据分析知识
假设检验
贝叶斯统计概述
模型和数据挖掘知识
第四章 编程技能考察
熟悉Python
pandas
数据可视化——matplotlib&pyecharts
文本处理——jieba&wordcloud
第三章 基础知识考察
统计和数据分析知识
假设检验
假设检验中的两种错误
①当原假设为真时,原假设被错误拒绝; ②不成功的原假设不被拒绝
如何平衡假设检验中的两种错误
首先会预设第一类错误的上限,定义显著性水平α(一般为5%),在显著性水平固定的情况下,需要减少第二类错误β发生的概率(1-β用power表示,也称检验效能);通过预设的显著性水平和检验效能可以计算出完成试验所需要的最小样本量。
简述假设检验中的p-value、显著性水平、置信度、检验效能
p-value:在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率。
显着性水平:假设检验中出现类型 1 错误的上限,用 α 表示。
置信度:用1-α表示检验的置信度。
检验效能:规避第二类错误的概率,用power表示。
z检验与t检验之间的区别
t检验无须提前获知方差的大小
贝叶斯统计概述
最需要掌握的是全概率公式及贝叶斯的实际运用,例如已知男女比例以及男女穿校服比例,对于一个穿校服的学生是男生的概率就可以用贝叶斯定理进行计算,=男生比例*男生穿校服比例/穿校服比例(男生比例*男生穿校服比例+女生比例*女生穿校服比例)
模型和数据挖掘知识
数据集的类型有哪些?
训练集、验证集和测试集
参数和超参数之间的区别
参数可以通过在训练集上训练模型获得,而超参数只能在训练前人为给出,然后通过验证集进行调整。
过拟合和欠拟合
模型的误差是由偏差和方差相加形成的。如果偏差太大,则表明欠拟合。模型过于简单,模型复杂度有待进一步提高;方差反映了模型的稳定性。变化
有监督和无监督学习常用模型
监督学习:
【预测问题】线性回归模型、时间序列模型、神经网络模型
【分类问题】逻辑回归模型、SVM模型、决策树模型、随机森林模型、Boosting模型
无监督学习:
【聚类问题】K-Means聚类模型、DBSCAN聚类模型、E-M聚类模型
【降维问题】PCA模型
模型效果评价方法
MSE(均方误差):值越小,模型精确度越高
RMSE(均方根误差):均方误差的算术平方根
MAE(平均绝对误差):绝对误差的平均值
二元分类问题常用的评价方法
准确率、召回率,而正确率和准确率不同,正确率考虑了正负样本预测的情况,而准确率只考虑了正样本的预测情况(因为存在正负样本比例可能会达到1:999的极端情况,如果看正确率只要将所有结果都预测为负样本则会高达99.9%,因此准确率的使用频率更高)
第四章 编程技能考察
熟悉Python
首先介绍了一些数据类型和对象类型,包括列表、元组、字典等。
pandas
可以用来读取Excel和CSV文件,以及显示数据前几列信息(以5为例)
import pandas as pd
r = pd.read_excel('名字.xlsx')
r.head(5)
添加新的一列(例如生成某列数据的log值列)
import math
r['log列名']=[math.log(i) if i>0 else 1 for i in r['原列名']]
如果要删除则直接drop掉:
r = r.drop('log列名',axis=1)
过滤和聚合计算
例如统计每天排名前5的热搜标题的平均热度
r_dt = r[resou['rank']<=5].groupby('date',as_index=False).agg({'searchCount':['mean']})
r_dt = ['date','avg_count']
r_dt.head(5)
数据可视化——matplotlib&pyecharts
引入了一些绘图代码
文本处理——jieba&wordcloud
介绍了一些分词和绘制词云
(以上两部分因为常用,就不详细介绍了)
文章出处登录后可见!