赞
踩
该文章参考李宏毅课程:https://www.bilibili.com/video/BV1Gf4y1p7Yo?spm_id_from=333.337.search-card.all.click&vd_source=7266164bac828afa96b5c3e3dcb1b738
定义:假设目前有一堆数据样本,用特征作为标签进行学习,因此将一部分样本做覆盖,输入到模型中,再与真实样本进行cross entropy的计算,最小化交叉熵来训练模型。这个过程就是自监督学习。下图为Bert的pre-train的流程图。
Bert模型最初是用于文本的缺失字符的填充或判断两个句子之间是否链接起来,之后用Fine-Tune的方式应用到更多的领域任务中
***Bert模型输入是否有长度限制?***当然,因为长度越长,Bert网络参数量就会越多(input和output的维度一致),本身Bert就是大规模模型。
***Bert为什么有用?***有研究表明其可以结合文本的上下语境对字符进行编码,如苹果的“果”,如果上下文有“吃”等字出现,说明其是真实苹果,就会和食物类编码接近,但是如果是iphone,则会和电子类编码接近。但是有研究表明上述解释也可能不成立。
对于multi-Bert,使用不同语言pre-train后,即使使用英语fine tune,在中文的任务上也能取得不错的效果,这是由于不同语言之间相同含义的语句可能存在固定距离差距来区分语言,也就是Bert明白语言之间的差别。
GPT太大,微调可能不可以实现,GPT常用于预测下一个token字符是什么作为pre-train
GPT后续用于输入任务目标,输入几个转化样例,要求GPT能够按照样例的形式对任务进行求解
视频链接:https://www.bilibili.com/video/BV1oq4y1E77X?spm_id_from=333.337.search-card.all.click&vd_source=7266164bac828afa96b5c3e3dcb1b738
自编码器其实上也是一种自监督学习方式,使用输入样本来复现输入样本,实现网络参数的初始化。
自编码器包括:编码器encoder 和 解码器decoder。其结构是输入样本–》编码器–》vector–》解码器–》输出样本。其目标是尽量让输出样本与输入样本相似度更高。
**自编码器的作用:**1. 可以利用encoder来进行信息压缩,用decoder进行解压缩;2. 用encoder来做特征选择,实现特征降维,提取输入中的关键信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。