4.1 Multiple features/variables(多特征/变量)
记号(Notation):
:number of features/variables(特征/变量数)
:input (features) of training examples(第个训练样本)
:value of feature in training examples(第个训练样本的第个特征)
,为了便利,定义,,,则,称为多元线性回归(Multivariate linear regression)。
4.2 Gradient descent for multiple variables(多元梯度下降法)
假设函数:*
参数:
代价函数:
还是和单变量的线性回归一样进行求导,只不过这次是多变量线性回归。不嫌麻烦可以对每个变量进行求导;简单方法是对向量求导。(求导很简单,没啥需要讲的。)
4.3 Gradient descent in practice I:Feature Scaling(多元梯度下降法演练1:特征缩放)
这一节讲的内容的目的是加快梯度下降算法的收敛。
Feature Scaling。Idea:Make sure features are on a similar scale。Get every feature into approximately a 。方法:将特征除以训练集中该特征的最大值。
Mean normalization。Replace with to make features have approximately zero mean (Do not apply to ),其中是训练集中特征的平均值,最后再除以的范围。用数学表达式就是:,其中是的范围,范围是指最大值减去最小值,也可以把设置为的标准差。
以上两个缩放不需要太精确,只是为了让梯度下降法的速度更快一点儿。
4.4 Gradient descent in practice II:Learning rate(多元梯度下降法演练2:学习率).
建议:每次迭代输出代价函数值。
如果梯度下降算法不能正常工作(代价函数值变大或者代价函数值来回横跳),则可以尝试使用更小的学习率。
对于足够小的,代价函数每次迭代都会下降;但是如果太小,收敛会变慢。
4.5 Features and polynomial regression(特征和多项式回归)
这一节只是简单提了一下利用现有特征的运算(加减乘除)构造新的特征和多项式回归,没啥好说的。
4.6 Normal equation(正规方程)
分析地求解线性回归的,这一节就是在讲最小二乘法。
Normal equation:method to solve for analytically。
个训练样本;个特征。
令,则,,利用最小二乘法或者是根据对代价函数求导,得到 。注:利用正规方程,不需要进行特征缩放。
上述涉及到矩阵求逆。当现实任务中往往不是满秩矩阵。例如特征(变量)数远远超过样本数,导致的列数多于行数,显然不满秩。此时可以解出多个解,它们均能使代价函数最小化。选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)项。
梯度下降法和正规方程各自的优缺点。梯度下降法:需要选择学习率;需要多次迭代;当训练集样本数大的时候表现好(速度快)。正规方程:不需要学习率;不需要迭代;但是当训练集样本数大()的时候慢(因为这时候矩阵规模大)。
文章出处登录后可见!