一、前言

此文章记录一些机器学习的相关知识点、公式及书写方法

二、参考文献

KaTeX库 文档 https://katex.org/docs/supported.html
王木头b站视频 https://space.bilibili.com/504715181
李沐b站视频 https://space.bilibili.com/1567748478

三、知识点及公式

1.线性回归

机器学习相关知识点整理【更新中】

2.sigmoid函数

机器学习相关知识点整理【更新中】

3.逻辑回归

机器学习相关知识点整理【更新中】

4.基尼指数

机器学习相关知识点整理【更新中】

5.基尼值

机器学习相关知识点整理【更新中】

6.联合概率公式

机器学习相关知识点整理【更新中】

ps：

：表示事件已发生时，事件发生的概率
：表示A、B事件的联合概率【A、B同时发生的概率】

7.全概率公式

机器学习相关知识点整理【更新中】

ps：

：表示B事件的发生概率【全概率】

8.贝叶斯公式

机器学习相关知识点整理【更新中】

ps：

：先验概率【事件还没有发生时，根据以往经验和分析得到的事件发生概率概率】，比如掷骰子结果为3的概率是六分之一
：后验概率【事件已经发生，但事情发生可能有多个原因，判断事件由哪个原因引起的概率】，比如你坐在马桶上分析今天窜稀的原因是吃了那种水果
：似然概率

9.求向量的模【范数】

机器学习相关知识点整理【更新中】

10.向量内积

机器学习相关知识点整理【更新中】

11.向量的余弦相似度

机器学习相关知识点整理【更新中】

PS：

一般做相似度检索时，有两种方式：
<1> 将文本或图像编码获得向量化特征之后入库，使用余弦相似度检索
<2> 将文本或图像编码获得向量化特征之后，先除以该向量的模(L2范式)得到归一化的向量特征再入库，使用向量内积进行检索，因为L2范式归一化之后的向量内积就等于向量的余弦相似度计算
优劣：方式一便于理解，方式二速度更快

12.似然函数

机器学习相关知识点整理【更新中】

ps：

似然值定义：当假设（概率模型）为真时所得到的样本观察结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。
举例：
1. 假设抛硬币正、反的概率分别为0.1、0.9，真实观察10次结果为4正6反，那么
2. 假设抛硬币正、反的概率分别为0.3、0.7，真实观察10次结果为4正6反，那么
3. ，所以我们可以拒绝第一种假设，保留第二种

13.伯努利分布

如果随机变量X只取0和1两个值，并且相应的概率为：
机器学习相关知识点整理【更新中】
则称随机变量X服从参数为p的伯努利分布，X的概率函数可写为：

令q=1一p的话，也可以写成下面这样：

ps：

定义：伯努利分布指的是对于随机变量X有, 参数为p(0<p<1)，如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)
什么样的事件遵循伯努利分布：任何我们只有一次实验和两个可能结果的事件都遵循伯努利分布【例如：抛硬币、猫狗分类】

14.信息量

某个事件发生的信息量可以定义成如下形式

机器学习相关知识点整理【更新中】

ps：

：当前事件发生的概率
的单位是比特

15.熵

对概率系统机器学习相关知识点整理【更新中】求熵可定义为对系统求信息量的期望

系统熵的求解过程简单来说，就是把系统里面所有 可能发生事件的信息量 求出来然后和这个 事件发生的概率 相乘，最后把这些结果相加，得到的就是这个系统的熵

ps：

熵的定义：衡量一个系统从原来的不确定到确定，难度有多大【系统趋于稳定的难度有多大】，简单来说就是衡量一个系统的混乱程度，混乱程度越小，系统越稳定，结果置信度越高
信息量的定义：与熵类似，时衡量一个事件从原来的不确定到确定，难度有多大【系统中某个事件趋于稳定的难度有多大】
举例：
1. 一个预测中国乒乓球是否夺冠的系统，熵就很小，因为它输出稳定、置信度高
2. 一个抛硬币的系统，熵就很高，因为它混乱程度高、输出不稳定

16.相对熵【KL散度】

相对熵用于计算两个系统之间的熵的差距，公式如下：

机器学习相关知识点整理【更新中】

ps：

：表示以系统为基准，计算与的熵的差距
：代表某件事在系统中的信息量减去此事件在系统中的信息量
：表示当前事件在系统发生的概率，：表示当前事件在系统发生的概率
：就是P系统的熵
：就是P系统的交叉熵
交叉熵 永远大于 熵【可根据吉布斯不等式求出】
当以系统为基准求两系统的相对熵时，是固定的，又一定大于，所以越小相对熵越小，因此相对熵的大小取决于交叉熵，交叉熵越小，系统越接近于，这就是交叉熵可以作为损失函数的原因
中的事件数量取两个系统中事件数量较多的那个即可，因为如果某个事件在系统中存在，在系统中不存在，那么该事件在系统中的概率，系统中的信息量就是，那么m事件的信息差，受该事件影响，最终求出的相对熵也就距越远【因为系统中多出了一个无关紧要的事件，导致和的相似度变低，这很河里（旺柴）】