机器学习相关知识点整理【更新中】

一、前言

此文章记录一些机器学习的相关知识点、公式及书写方法

二、参考文献

  1. KaTeX库 文档 https://katex.org/docs/supported.html
  2. 王木头b站视频 https://space.bilibili.com/504715181
  3. 李沐b站视频 https://space.bilibili.com/1567748478

三、知识点及公式

1.线性回归

机器学习相关知识点整理【更新中】

2.sigmoid函数

机器学习相关知识点整理【更新中】

3.逻辑回归

机器学习相关知识点整理【更新中】

4.基尼指数

机器学习相关知识点整理【更新中】

5.基尼值

机器学习相关知识点整理【更新中】

6.联合概率公式

机器学习相关知识点整理【更新中】

ps:

  1. 机器学习相关知识点整理【更新中】:表示机器学习相关知识点整理【更新中】事件已发生时,机器学习相关知识点整理【更新中】事件发生的概率
  2. 机器学习相关知识点整理【更新中】:表示A、B事件的联合概率【A、B同时发生的概率】

7.全概率公式

机器学习相关知识点整理【更新中】

ps:

  1. 机器学习相关知识点整理【更新中】:表示B事件的发生概率【全概率】

8.贝叶斯公式

机器学习相关知识点整理【更新中】

ps:

  1. 机器学习相关知识点整理【更新中】:先验概率【事件还没有发生时,根据以往经验和分析得到的事件发生概率概率】,比如掷骰子结果为3的概率是六分之一
  2. 机器学习相关知识点整理【更新中】:后验概率【事件已经发生,但事情发生可能有多个原因,判断事件由哪个原因引起的概率】,比如你坐在马桶上分析今天窜稀的原因是吃了那种水果
  3. 机器学习相关知识点整理【更新中】:似然概率

9.求向量的模【机器学习相关知识点整理【更新中】范数】

机器学习相关知识点整理【更新中】
机器学习相关知识点整理【更新中】

10.向量内积

机器学习相关知识点整理【更新中】
机器学习相关知识点整理【更新中】

11.向量的余弦相似度

机器学习相关知识点整理【更新中】
机器学习相关知识点整理【更新中】

PS:

  1. 一般做相似度检索时,有两种方式:
    <1> 将文本或图像编码获得向量化特征之后入库,使用余弦相似度检索
    <2> 将文本或图像编码获得向量化特征之后,先除以该向量的模(L2范式)得到归一化的向量特征再入库,使用向量内积进行检索,因为L2范式归一化之后的向量内积就等于向量的余弦相似度计算
    优劣:方式一便于理解,方式二速度更快

12.似然函数

机器学习相关知识点整理【更新中】

ps:

  1. 似然值定义:当假设(概率模型机器学习相关知识点整理【更新中】)为真时所得到的样本观察结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
    举例:
    1. 假设抛硬币正、反的概率分别为0.1、0.9,真实观察10次结果为4正6反,那么
      机器学习相关知识点整理【更新中】
    2. 假设抛硬币正、反的概率分别为0.3、0.7,真实观察10次结果为4正6反,那么
      机器学习相关知识点整理【更新中】
    3. 机器学习相关知识点整理【更新中】,所以我们可以拒绝第一种假设,保留第二种

13.伯努利分布

如果随机变量X只取0和1两个值,并且相应的概率为:
机器学习相关知识点整理【更新中】
则称随机变量X服从参数为p的伯努利分布,X的概率函数可写为:
机器学习相关知识点整理【更新中】
令q=1一p的话,也可以写成下面这样:
机器学习相关知识点整理【更新中】

ps:

  1. 定义:伯努利分布指的是对于随机变量X有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)

  2. 什么样的事件遵循伯努利分布:任何我们只有一次实验和两个可能结果的事件都遵循伯努利分布【例如:抛硬币、猫狗分类】

14.信息量

某个事件发生的信息量可以定义成如下形式

机器学习相关知识点整理【更新中】

ps:

  1. 机器学习相关知识点整理【更新中】:当前事件发生的概率
  2. 机器学习相关知识点整理【更新中】的单位是比特

15.熵

对概率系统 机器学习相关知识点整理【更新中】 求熵 机器学习相关知识点整理【更新中】 可定义为对系统 机器学习相关知识点整理【更新中】 求信息量 机器学习相关知识点整理【更新中】 的期望
机器学习相关知识点整理【更新中】
系统熵的求解过程简单来说,就是把系统里面所有 可能发生事件的信息量 机器学习相关知识点整理【更新中】 求出来然后和这个 事件发生的概率 机器学习相关知识点整理【更新中】 相乘,最后把这些 结果 机器学习相关知识点整理【更新中】 相加,得到的就是这个系统的熵

ps:

  1. 熵的定义:衡量一个系统从原来的不确定到确定,难度有多大【系统趋于稳定的难度有多大】,简单来说就是衡量一个系统的混乱程度,混乱程度越小,系统越稳定,结果置信度越高
    信息量的定义:与熵类似,时衡量一个事件从原来的不确定到确定,难度有多大【系统中某个事件趋于稳定的难度有多大】
    举例:
    1. 一个预测中国乒乓球是否夺冠的系统,熵就很小,因为它输出稳定、置信度高
    2. 一个抛硬币的系统,熵就很高,因为它混乱程度高、输出不稳定

16.相对熵【KL散度】

相对熵用于计算两个系统之间的熵的差距,公式如下:

机器学习相关知识点整理【更新中】

ps:

  1. 机器学习相关知识点整理【更新中】:表示以机器学习相关知识点整理【更新中】系统为基准,计算机器学习相关知识点整理【更新中】机器学习相关知识点整理【更新中】的熵的差距
  2. 机器学习相关知识点整理【更新中】:代表某件事在机器学习相关知识点整理【更新中】系统中的信息量减去此事件在机器学习相关知识点整理【更新中】系统中的信息量
  3. 机器学习相关知识点整理【更新中】:表示当前事件在机器学习相关知识点整理【更新中】系统发生的概率,机器学习相关知识点整理【更新中】:表示当前事件在机器学习相关知识点整理【更新中】系统发生的概率
  4. 机器学习相关知识点整理【更新中】:就是P系统的熵
  5. 机器学习相关知识点整理【更新中】:就是P系统的交叉熵
  6. 交叉熵 机器学习相关知识点整理【更新中】 永远大于机器学习相关知识点整理【更新中】【可根据吉布斯不等式求出】
  7. 当以 机器学习相关知识点整理【更新中】 系统为基准求 机器学习相关知识点整理【更新中】 两系统的相对熵 机器学习相关知识点整理【更新中】 时,机器学习相关知识点整理【更新中】 是固定的,机器学习相关知识点整理【更新中】 又一定大于 机器学习相关知识点整理【更新中】,所以机器学习相关知识点整理【更新中】 越小相对熵越小,因此相对熵的大小取决于交叉熵 机器学习相关知识点整理【更新中】, 交叉熵越小,系统 机器学习相关知识点整理【更新中】 越接近于 机器学习相关知识点整理【更新中】这就是交叉熵可以作为损失函数的原因
  8. 机器学习相关知识点整理【更新中】 中的事件数量 机器学习相关知识点整理【更新中】 取两个系统中事件数量较多的那个即可,因为如果某个事件在 机器学习相关知识点整理【更新中】 系统中存在,在 机器学习相关知识点整理【更新中】 系统中不存在,那么该事件在 机器学习相关知识点整理【更新中】 系统中的概率 机器学习相关知识点整理【更新中】机器学习相关知识点整理【更新中】 系统中的信息量就是 机器学习相关知识点整理【更新中】 ,那么m事件的信息差 机器学习相关知识点整理【更新中】 ,受该事件影响,最终求出的相对熵也就距 机器学习相关知识点整理【更新中】 越远【因为 机器学习相关知识点整理【更新中】 系统中多出了一个无关紧要的事件,导致 机器学习相关知识点整理【更新中】机器学习相关知识点整理【更新中】 的相似度变低,这很河里(旺柴)】

17.交叉熵

基本公式如下
机器学习相关知识点整理【更新中】
考虑正反两面的情况后可以写成如下形式
机器学习相关知识点整理【更新中】

18.泰勒公式

机器学习相关知识点整理【更新中】机器学习相关知识点整理【更新中】 处有n阶导数,则有公式:
机器学习相关知识点整理【更新中】

ps:

  1. 泰勒公式作用是 用一些幂函数相加来拟合原函数 机器学习相关知识点整理【更新中】,本质就是近似
  2. 泰勒公式展开的项数越高,最终拟合原函数的近似度就越高
  3. 等价无穷小就是只展开一次的泰勒公式,是特殊的泰勒公式
  4. 泰勒公式的本质是近似,洛必达计算的本质是降阶

19.麦克劳林公式

机器学习相关知识点整理【更新中】 时的 泰勒公式 就是 麦克劳林公式了,如下
机器学习相关知识点整理【更新中】

参考视频
https://www.bilibili.com/video/BV1WX4y1g7bx

todo…

请添加图片描述

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年3月4日 下午10:55
下一篇 2023年3月5日 上午8:36

相关推荐