文章目录
一、前言
此文章记录一些机器学习的相关知识点、公式及书写方法
二、参考文献
- KaTeX库 文档 https://katex.org/docs/supported.html
- 王木头b站视频 https://space.bilibili.com/504715181
- 李沐b站视频 https://space.bilibili.com/1567748478
三、知识点及公式
1.线性回归
2.sigmoid函数
3.逻辑回归
4.基尼指数
5.基尼值
6.联合概率公式
ps:
- :表示事件已发生时,事件发生的概率
- :表示A、B事件的联合概率【A、B同时发生的概率】
7.全概率公式
ps:
- :表示B事件的发生概率【全概率】
8.贝叶斯公式
ps:
- :先验概率【事件还没有发生时,根据以往经验和分析得到的事件发生概率概率】,比如掷骰子结果为3的概率是六分之一
- :后验概率【事件已经发生,但事情发生可能有多个原因,判断事件由哪个原因引起的概率】,比如你坐在马桶上分析今天窜稀的原因是吃了那种水果
- :似然概率
9.求向量的模【范数】
10.向量内积
11.向量的余弦相似度
PS:
- 一般做相似度检索时,有两种方式:
<1> 将文本或图像编码获得向量化特征之后入库,使用余弦相似度检索
<2> 将文本或图像编码获得向量化特征之后,先除以该向量的模(L2范式)得到归一化的向量特征再入库,使用向量内积进行检索,因为L2范式归一化之后的向量内积就等于向量的余弦相似度计算
优劣:方式一便于理解,方式二速度更快
12.似然函数
ps:
- 似然值定义:当假设(概率模型)为真时所得到的样本观察结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
举例:- 假设抛硬币正、反的概率分别为0.1、0.9,真实观察10次结果为4正6反,那么
- 假设抛硬币正、反的概率分别为0.3、0.7,真实观察10次结果为4正6反,那么
- ,所以我们可以拒绝第一种假设,保留第二种
- 假设抛硬币正、反的概率分别为0.1、0.9,真实观察10次结果为4正6反,那么
13.伯努利分布
如果随机变量X只取0和1两个值,并且相应的概率为:
则称随机变量X服从参数为p的伯努利分布,X的概率函数可写为:
令q=1一p的话,也可以写成下面这样:
ps:
-
定义:伯努利分布指的是对于随机变量X有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)
-
什么样的事件遵循伯努利分布:任何我们只有一次实验和两个可能结果的事件都遵循伯努利分布【例如:抛硬币、猫狗分类】
14.信息量
某个事件发生的信息量可以定义成如下形式
ps:
- :当前事件发生的概率
- 的单位是比特
15.熵
对概率系统 求熵 可定义为对系统 求信息量 的期望
系统熵的求解过程简单来说,就是把系统里面所有 可能发生事件的信息量 求出来然后和这个 事件发生的概率 相乘,最后把这些 结果 相加,得到的就是这个系统的熵
ps:
- 熵的定义:衡量一个系统从原来的不确定到确定,难度有多大【系统趋于稳定的难度有多大】,简单来说就是衡量一个系统的混乱程度,混乱程度越小,系统越稳定,结果置信度越高
信息量的定义:与熵类似,时衡量一个事件从原来的不确定到确定,难度有多大【系统中某个事件趋于稳定的难度有多大】
举例:- 一个预测中国乒乓球是否夺冠的系统,熵就很小,因为它输出稳定、置信度高
- 一个抛硬币的系统,熵就很高,因为它混乱程度高、输出不稳定
16.相对熵【KL散度】
相对熵用于计算两个系统之间的熵的差距,公式如下:
ps:
- :表示以系统为基准,计算与的熵的差距
- :代表某件事在系统中的信息量减去此事件在系统中的信息量
- :表示当前事件在系统发生的概率,:表示当前事件在系统发生的概率
- :就是P系统的熵
- :就是P系统的交叉熵
- 交叉熵 永远大于 熵 【可根据吉布斯不等式求出】
- 当以 系统为基准求 两系统的相对熵 时, 是固定的, 又一定大于 ,所以 越小相对熵越小,因此相对熵的大小取决于交叉熵 , 交叉熵越小,系统 越接近于 ,这就是交叉熵可以作为损失函数的原因
- 中的事件数量 取两个系统中事件数量较多的那个即可,因为如果某个事件在 系统中存在,在 系统中不存在,那么该事件在 系统中的概率 , 系统中的信息量就是 ,那么m事件的信息差 ,受该事件影响,最终求出的相对熵也就距 越远【因为 系统中多出了一个无关紧要的事件,导致 和 的相似度变低,这很河里(旺柴)】
17.交叉熵
基本公式如下
考虑正反两面的情况后可以写成如下形式
18.泰勒公式
设 在 处有n阶导数,则有公式:
ps:
- 泰勒公式作用是 用一些幂函数相加来拟合原函数 ,本质就是近似
- 泰勒公式展开的项数越高,最终拟合原函数的近似度就越高
- 等价无穷小就是只展开一次的泰勒公式,是特殊的泰勒公式
- 泰勒公式的本质是近似,洛必达计算的本质是降阶
19.麦克劳林公式
当 时的 泰勒公式 就是 麦克劳林公式了,如下
参考视频
https://www.bilibili.com/video/BV1WX4y1g7bx
todo…
文章出处登录后可见!
已经登录?立即刷新