机器学习基础_损失函数

损失函数

经验误差风险

假定我们的目的是学习一个模型,用以自动判断某产品评论是正面的还是负面的。

​ 当优化算法收敛以后,我们就得到了一个不错的模型。当然,这个“不错”的模型到底能有多好还要看损失函数的复杂程度。如果损失函数是个凸函数,则很容易通过上述方法找到全局最优模型;否则,多数情况下我们得到的只是局部最优模型。无论是哪种情况,未来我们将会使用这个学到的模型对未知的新样本进行分类。

损失函数定义

Hinge损失函数衡量的是预测模型的输出的符号和类别标签的符号是否一致以及一致的程度。

其具体数学形式如下:

从以上定义可以看出,指数损失函数对于预测模型输出的符号与类别标签的符号不一致的情况有强烈的惩罚,相反,当二者符号一致且乘积数值较大时,损失函数的取值会非常小。指数损失函数的基本形状和Hinge损失函数很接近,只不过它对于符号不一致的情况的惩罚力度更大(指数力度vs.线性力度),而且它是全程连续可导的凸函数,对于优化过程更加有利。

交叉熵损失函数也是常用的损失函数之一,它假设预测模型以下述形式决定了标签的概率分布:

并且试图衡量该概率与标签之间的差别。其数学定义如下(参见图2.5):

可见,最小化交叉熵损失函数等价于最大化预测函数g所对应的条件似然函数。

模型泛化误差

机器学习算法的最终目标是最小化期望损失风险(也就是模型在任意未知测试样本上的表现):

Last updated