当前位置:   article > 正文

机器学习(西瓜书)学习笔记3——模型评估与选择_traing error

traing error

一、经验误差和过拟合

1.经验误差:学习器在训练集上的误差称为“训练误差”(traing error)或“经验误差”(empirical error)。

2.泛化误差:学习器在新样本上的误差称为泛化误差(generalization error)。

泛化误差小的学习器是我们想要的。

3、过拟合:当学习器把训练样本学的太好,很可能把训练数据的特征作为所有数据都具有的特征,这样会导致学习器在测试集上效果变差,泛化性能下降,这种现象叫做过拟合(overfitting)。过拟合无法避免,只能缓解算法中的过拟合。

4、欠拟合:由于学习器的学习能力太弱,然后数据复杂度较高,使得学习器没有学到数据的一般特征,导致学习器泛化能力减弱。

二、评估方法

1.留出法:直接将数据D分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。

留出法在对数据进行划分时要保持数据分布一致,避免因数据划分过程引入额外的偏差对最终结果造成影响。常见的做法是将2/3~4/5的样本用于训练,剩余样本用于测试。

2.交叉验证:先将数据集D划分为k个大小相似的互斥子集,每个子集D_{i}都尽可能保持数据分布一致,然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集。这样可以得到k组训练/测试集,从而进行k次训练和测试,最终返回这k个测试结果的均值。交叉验证法评估结果的稳定性和保真性由k值决定。为了强调这一点,交叉验证也称为k折交叉验证,k通常取值为10,此时称为十折交叉验证。

由于留出法和交叉验证法保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计偏差。基于以上分析,我们有自助法解决以下问题。

3.自助法:给定包含m个样本的数据集D,每次从数据集D中随机抽取一个样本放入数据集D'中,然后再将此样本放入D中。将此过程重复m次,得到含有m个样本的数据集D',这就是自主抽样的结果。显然,D中有一部分样本会在D'中重复出现,而另一部分样本不出现。样本在m次采样中始终不被采到的概率是\left ( 1-\frac{1}{m} \right ),取极限得:

\lim_{m\rightarrow \propto }\left ( 1-\frac{1}{m} \right ) \mapsto \frac{1}{e}\approx 0.368

由此可知,数据集D中有36.8%的数据未出现在采样数据集D'中。于是可将D'作为训练集,D\D'作为测试集。自助法在数据集小,难以有效划分训练集和测试集时很有用,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在数据量足够时,留出法和交叉验证更常用。

三、性能度量

1.均方误差:在预测任务中,给定样例集D=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right ),....\left ( x_{m},y_{m} \right )\right \},其中,y_{i}x_{i}的真实标记。要评估学习器的性能,就要把学习器的预测结果f\left ( x \right )与真实标记y进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error):E\left ( f;D \right )= \frac{1}{m}\sum_{i=1}^{m}\left ( f\left ( x_{i} \right )-y_{i} \right )^{2}

2、查准率、查全率

查准率:学习器在测试过程找出的数据中正确的比率。

查全率:学习器在测试过程中找出的数据占总测试数据的比率。

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)。TP+FP+TN+FN=样例总数。

分类结果的混淆矩阵如下表所示:

分类结果混淆矩阵
真实情况预测结果
正例反例
正例TPFN
反例FPTN

查准率的计算公式:P=\frac{TP}{TP+FP} 。查全率的计算公式:R=\frac{TP}{TP+FN}

查准率和查全率是相互矛盾的,“你高我低”,如果尽可能选对好瓜,那肯定只挑选出了最有把握的瓜,这导致查准率高、查全率低。如果尽可能把好瓜都挑出来,那么所有好瓜必然都选上了,这样查全率就高,但是查准率就低了。

3、P-R曲线

将学习器的预测结果进行排序,按照可能性大到可能性小进行排序,每次可以计算出当前的查全率和查准率,以查准率为纵轴、查全率为横轴作图,就得到了P-R曲线。如果一个学习器A的P-R曲线在学习器B的PR曲线之上,那么,学习器A的性能优于学习器B的性能。

4、ROC和AUC

ROC(Receiver Operation Characteristic):我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,TPR),分别以他们为横(假正例率)、纵(真正例率)坐标作图,从而得ROC曲线。

真正例率:TPR=\frac{TP}{TP+FN}            假正例率:TPR=\frac{FP}{TN+FP}

AUC(Area Under ROC Curve)ROC曲线与横纵坐标轴围成的区域称为AUC

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/908923
推荐阅读
相关标签
  

闽ICP备14008679号