多元线性回归
具有多个特征的线性回归
如果我们有一个具有多个特征的连续标记数据,我们可以使用多元线性回归来建立机器学习模型。
标签是数据的答案,值是连续的。以下面的房价示例,标签是价格,特征是大小,卧室数量,楼层数和房龄。
以下示例显示了如何使用假设函数。
注意,正方形(参见上面的粉色矩形)是必要的,因为误差值总是正的。此外,平方误差函数是可微的,因此我们可以对其应用梯度下降法。
从本质上讲,成本函数J(θ)是每个数据的平方误差的总和。误差越大,假设的性能越差。因此,我们要减少误差,即最小化J(θ)。
梯度下降算法
梯度下降算法是最小化成本函数的常用方法。一旦找到最小误差,机器学习模型同时学习最佳参数θ。因此,我们可能会找到好的预测器,一个具有最佳参数θ的假设函数,它可以产生最小误差。
请注意,我们在这里使用“可能”这个词,因为具有最佳参数θ的假设可能会遇到问题,即所谓的“过度拟合”。
- 伪代码
在每次迭代时, 需要同时更新 参数θ 。
我们使用学习率α来控制我们在一次迭代中更新的程度。如果α太小,则会使梯度下降更新太慢,而更新可能会超过最小值并且不会收敛。
请注意,我们在开始时设置固定学习率α,因为梯度下降将缓慢且自动更新,直到达到最小值。因此,不需要在每次迭代时自己改变学习率α。
缩放特征的一种方法是均值归一化,公式为
在线性代数中,线性系统可以表示为矩阵方程。
在多元线性回归中,公式与上述相同。但是,如果正规方程是不可逆的怎么办?然后考虑删除冗余特征或使用正则化。
总之,使用正规方程的优点是
- 无需选择学习率α
- 无需迭代
- 特征缩放不是必需的
请注意,如果特征的数量非常大,则“正规方程”的工作速度非常慢,而“梯度下降”算法仍能正常工作。