吴恩达《机器学习》笔记——第四章

4.1 Multiple features/variables(多特征/变量)

记号(Notation):
吴恩达《机器学习》笔记——第四章:number of features/variables(特征/变量数)
吴恩达《机器学习》笔记——第四章:input (features) of 吴恩达《机器学习》笔记——第四章 training examples(第吴恩达《机器学习》笔记——第四章个训练样本)
吴恩达《机器学习》笔记——第四章:value of feature 吴恩达《机器学习》笔记——第四章 in 吴恩达《机器学习》笔记——第四章 training examples(第吴恩达《机器学习》笔记——第四章个训练样本的第吴恩达《机器学习》笔记——第四章个特征)

吴恩达《机器学习》笔记——第四章,为了便利,定义吴恩达《机器学习》笔记——第四章吴恩达《机器学习》笔记——第四章吴恩达《机器学习》笔记——第四章,则吴恩达《机器学习》笔记——第四章,称为多元线性回归(Multivariate linear regression)。

4.2 Gradient descent for multiple variables(多元梯度下降法)

假设函数:*吴恩达《机器学习》笔记——第四章

参数:吴恩达《机器学习》笔记——第四章

代价函数:吴恩达《机器学习》笔记——第四章

还是和单变量的线性回归一样进行求导,只不过这次是多变量线性回归。不嫌麻烦可以对每个变量进行求导;简单方法是对向量求导。(求导很简单,没啥需要讲的。)

4.3 Gradient descent in practice I:Feature Scaling(多元梯度下降法演练1:特征缩放)

这一节讲的内容的目的是加快梯度下降算法的收敛。

Feature Scaling。Idea:Make sure features are on a similar scale。Get every feature into approximately a 吴恩达《机器学习》笔记——第四章。方法:将特征除以训练集中该特征的最大值。

Mean normalization。Replace 吴恩达《机器学习》笔记——第四章 with 吴恩达《机器学习》笔记——第四章 to make features have approximately zero mean (Do not apply to 吴恩达《机器学习》笔记——第四章),其中吴恩达《机器学习》笔记——第四章是训练集中特征吴恩达《机器学习》笔记——第四章的平均值,最后再除以吴恩达《机器学习》笔记——第四章的范围。用数学表达式就是:吴恩达《机器学习》笔记——第四章,其中吴恩达《机器学习》笔记——第四章吴恩达《机器学习》笔记——第四章的范围,范围是指最大值减去最小值,也可以把吴恩达《机器学习》笔记——第四章设置为吴恩达《机器学习》笔记——第四章的标准差。

以上两个缩放不需要太精确,只是为了让梯度下降法的速度更快一点儿。

4.4 Gradient descent in practice II:Learning rate(多元梯度下降法演练2:学习率).

建议:每次迭代输出代价函数值。

如果梯度下降算法不能正常工作(代价函数值变大或者代价函数值来回横跳),则可以尝试使用更小的学习率吴恩达《机器学习》笔记——第四章

对于足够小的吴恩达《机器学习》笔记——第四章,代价函数每次迭代都会下降;但是如果吴恩达《机器学习》笔记——第四章太小,收敛会变慢。

4.5 Features and polynomial regression(特征和多项式回归)

这一节只是简单提了一下利用现有特征的运算(加减乘除)构造新的特征和多项式回归,没啥好说的。

4.6 Normal equation(正规方程)

分析地求解线性回归的吴恩达《机器学习》笔记——第四章,这一节就是在讲最小二乘法。

Normal equation:method to solve for 吴恩达《机器学习》笔记——第四章 analytically。

吴恩达《机器学习》笔记——第四章个训练样本吴恩达《机器学习》笔记——第四章吴恩达《机器学习》笔记——第四章个特征。
吴恩达《机器学习》笔记——第四章,则吴恩达《机器学习》笔记——第四章吴恩达《机器学习》笔记——第四章,利用最小二乘法或者是根据对代价函数求导,得到 吴恩达《机器学习》笔记——第四章注:利用正规方程,不需要进行特征缩放。

上述涉及到矩阵求逆。当现实任务中吴恩达《机器学习》笔记——第四章往往不是满秩矩阵。例如特征(变量)数远远超过样本数,导致吴恩达《机器学习》笔记——第四章的列数多于行数,吴恩达《机器学习》笔记——第四章显然不满秩。此时可以解出多个解,它们均能使代价函数最小化。选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)项。

梯度下降法和正规方程各自的优缺点。梯度下降法:需要选择学习率吴恩达《机器学习》笔记——第四章;需要多次迭代;当训练集样本数大的时候表现好(速度快)。正规方程:不需要学习率吴恩达《机器学习》笔记——第四章;不需要迭代;但是当训练集样本数大(吴恩达《机器学习》笔记——第四章)的时候慢(因为这时候矩阵吴恩达《机器学习》笔记——第四章规模大)。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月13日
下一篇 2022年5月13日

相关推荐