赞
踩
归纳偏好指机器学习算法在学习过程中对某种类型假设的偏好。
假
设
−
>
{
尽
可
能
一
般
适用情况尽可能多
尽
可
能
特
殊
适用情况尽可能少
假设->
例如:若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在这种情况下,通常认为两个数据的属性越相近,则更倾向于将它们划为同一类。对于出现相同属性却不同类的情况,可以认为是它属于与之最近邻的数据的属性类别;或者直接删除,但会丢失部分数据。这就是一种归纳偏好用于假设选择的例子。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上”等效“的假设所迷惑,而无法产生确定的学习结果。
例:若认为相似样本应有相似的输出,结果可能是平滑的曲线。
没有免费的午餐定理 (No Free Lunch Theorem , NFL定理):在没有实际背景下,没有一种算法比随机猜想的算法效果更好。
NFL定理的重要意义:在脱离实际情况下,空泛地谈论哪种算法好坏是毫无意义的,要谈论其优劣必须针对具体的学习问题。
模型选择的理想方案是:对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型。
实际上,我们无法直接获得泛化误差,而训练误差又由于过拟合现象的存在就不适合作为标准。
解决方案:使用测试误差近似泛化误差。(实际运用中,还会考虑时间开销、存储开销、可解释性等方面的因素)
使用测试误差近似泛化误差。
方法 | 原理 | 注意 | 优缺点 |
---|---|---|---|
留出法 | 将数据集划分为两个互斥的集合分别作为训练集和测试集 | 1、要尽可能保持数据分布一致性,否则会引入偏差; 2、一般采用若干次随机划分,重复进行实验评估取平均作为最终的结果; 3、常用2/3~4/5的样本作为训练集,其余为测试集。 | 容易引入额外的偏差; |
交叉验证 | 将集合划分成k个相似的互斥子集,每次用一个做为测试集,k-1个作为训练集,k次后取平均或投票 | 结果更加精确,但是计算开销大 | |
自助法 | 有放回的随机从n个样本中抽取m次 | 1、在数据集小,难以存放划分时很有用; 2、能产生不同的训练集,对集成方法有很大好处; 3、改变了初始数据集分布,引入估计偏差 |
性能度量时衡量泛化能力的评价标准,它反映了任务需求,在对比不同模型的能力时,使用不同模型能力时,使用不同的性能度量往往会导致不同的评价结果。
真实\预测 | 正 | 负 |
---|---|---|
正 | TP(真正例) | FN(假反例) |
负 | FP(假正例) | TN(真反例) |
聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度低。
此时需要性能度量,一般分两类:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。