赞
踩
本文知乎链接(排版可能好看丢丢):https://zhuanlan.zhihu.com/p/340618818
论文地址:paper
这篇概述很简洁:简介的论文解读
机器学习在有大量数据支撑的时候的效果很好,但是数据量很少的时候效果很差了。Few shot learning 是针对于这个问题场景下提出的解决办法,他可以迅速自适应到一个新的任务中去。FSL的核心问题是unreliable empirical risk minimizer,基于如何利用先验知识来解决问题,我们可以把FSL领域的现有研究划分到三个方向:
本文对FSL算法进行了归类并讨论了每个类别的优缺点。
计算机器和智能的最终目标是实现并超越人类的智能。近年来在大量监督信息和计算能力的帮助下,AI发展迅速。但是目前的AI技术不能从少量样本中快速学习任务。利用FSL来解决这个问题。最典型的例子是手写字符识别。当计算机获得一小部分例子的时候它需要分析并产生新的字符。为了解决这个问题,可以将字符分成易于转移的更小的part,然后利用这些小部分产生新的字符。这和人类的学习思想很相似。
另一种FSL的应用场景是当监督信息因为安全、隐私或者道德的限制不可获得的时候,例如在发现一种新药的时候,并没有很多的生物学记录。FSL可以减轻收集大量监督信息的负担。
FSL算法示例:元学习(meta-learning)、表示学习(embedding learning)、生成模型的学习(generative modeling)
本文贡献:
第二节是对FSL的概述,包括正式定义、相关问题、核心问题、对现有工作在data、model、algorithms方向的分类;第三节是以数据扩充的方式来解决FSL的问题;第四节是利用模型减小假设空间;第五节是利用先验知识改变如何在假设空间中搜索最佳假设的算法。第6节中,从问题设置、技术、应用和理论方面为FSL提出了未来的方向。
针对于一个图像分类任务(T),机器学习模型在大量的数据集上训练获得监督经验E,通过E,可以提高分类的准确率(P)
对于任务T, 只有少量的监督信息E,但是期望获得不错的分类准确率P
参考:https://zhuanlan.zhihu.com/p/61215293
问题定义
人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。 Few-shot Learning 是 Meta Learning在监督学习领域的应用。
Meta Learning,又称为 learning to learn,在 meta training 阶段将数据集分解为不同的 meta task,去学习类别变化的情况下模型的泛化能力,在 meta testing 阶段,面对全新的类别,不需要变动已有的模型,就可以完成分类。
形式化来说,few-shot的训练集中包含了很多的类别,每个类别中有多个样本。在训练阶段,会在训练集中随机抽取 C 个类别,每个类别 K 个样本(总共 CK 个数据),构建一个 meta-task,作为模型的支撑集(support set)输入;再从这 C个类中剩余的数据中抽取一批(batch)样本作为模型的预测对象(batch set)。即要求模型从 C*K 个数据中学会如何区分这 C个类别,这样的任务被称为 C-way K-shot 问题。 训练过程中,每次训练(episode)都会采样得到不同meta-task,所以总体来看,训练包含了不同的类别组合,这种机制使得模型学会不同 meta-task 中的共性部分,比如如何提取重要特征及比较样本相似等,忘掉 meta-task 中 task 相关部分。通过这种学习机制学到的模型,在面对新的未见过的 meta-task 时,也能较好地进行分类。
FSL的三个常见的应用场景:
相关模型有弱监督学习、不平衡学习、迁移学习和元学习。
就是从不完整或者不准确的监督信息中学习任务,和少样本学习一样都含有少量的样本具有监督信息。可以分为半监督学习和主动学习。
1) 半监督学习:从少量的标记样本和大量的未标记样本里面进行学习,其中 positive-unlabelled learning 是半监督学习的特例,数据样本中只有正的样本和无标记的样本。
2) 主动学习Active learning:(https://zhuanlan.zhihu.com/p/79764678)
3) 两者的区别:根据定义,弱监督学习只包括分类和回归问题,而FSL还包括强化学习问题。此外,弱监督学习主要使用未标记数据作为附加信息,而FSL利用各种先验知识,如预训练模型、来自其他领域或模态的监督数据,并且不限于使用未标记数据。因此,只有当先验知识是未标记数据并且任务是分类或回归时,FSL问题才成为弱监督学习问题。
指的是正负样本分布不平衡的数据。
先在有大量数据的领域训练,然后迁移到数据比较少的领域。(fine-tune)
元学习是处理FSL 的一种方式
在遇到一个机器学习的问题的时候,我们通常是通过最小化损失函数来找到从x 到 y 的最有假设h(x)。但实际上我们期望的是我们获得的假设函数h(x)能够预测所有的样本的损失函数最小,这个针对于所有样本的风险称expected risk, 期望风险如下式:
理论上说,让期望风险最小化才能逼近真实分布,但因为你并不知道真实分布(就是不管怎么样,你都拿不到这个问题的所有预测样本呀),所有最小化期望风险是无法实现的,而在机器学习中通常用经验风险来替换期望风险,经验风险就是在训练集上预测的结果和真实结果的差异(就是说我拿到所有的样本分布确实不可能了,所以我退而求其次,我就只拿训练集的数据来模拟数据的真实分布好了),也是我们常说的损失函数,表达式如下:
简单来说下的话,h^ 是真实分布的假设,h∗是假设空间H中最接近h^的假设(通过最小化期望风险得到的假设),而hI是你通过最小化经验损失得到的假设
等式右边第一项表示的是假设空间H中最优的假设和真实假设的误差,这一项其实由你所选择的模型和参数的初始化分布决定的,这也就是为什么有的时候,模型选择的简单了,你给再多的数据也训练不好,欠拟合。第二项就是我们训练得到的假设和H中最优假设的误差,我们训练得到的假设也是从假设空间H中选择的,但有时候会陷入局部最优,或者提供的训练数据分布有偏差,导致无法到全局最优。
因此我们可以看到最后的误差是受假设空间H和在训练集中样本的数量影响的,因此可以通过data(提供训练集)、模型(决定假设空间)和算法(如何在假设空间里面找到适合训练集的最优假设)
**
**
当含有足量的训练集和少量训练集时的对比,可以看一下经验误差和期望误差之间的差距。
为了解决这个问题,可以通过DATA、model、algorithms 三种方式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。