当前位置:   article > 正文

chatGPT 背后的技术 之 GPT3_chatgpt3

chatgpt3

chatGPT是由openAI 公司发布的大型语言对话机器学习模型,因为其强大的功能,可以帮助编程,可以咨询问题,可以检查语法错误等等,而在最近半年火爆全网。

chatGPT 背后的技术是 GPT3.5,其本质是 大型预训练语言模型。

GPT3.5 是 在 GPT3 的 基础上进行了微调(fine-tuning),具体进行了什么微调我们在后面的文章中会介绍,今天我们先介绍GPT3.

GPT3 的详细介绍在 Language Models are Few-Shot Learners 这篇 论文中,https://arxiv.org/abs/2005.14165   点击网页链接中的Download 下的 PDF 就可以下载论文原文。

论文中的重点如下:

GPT3 的网络结构和 GPT2 是一样的(GPT2 会在后面的文章中详细介绍),但GPT3 的模型尺寸比GPT2大 两个数量级。

和GPT2的主要不同是,GPT3 使用了 Sparse Transformer。

训练的数据集进行了一些处理,增加了一些可信度高的文本的学习次数。

GPT3 可以处理多种文本相关的任务,如填词,回答问题,阅读理解等,不再需要对特性任务进行分别训练,可以认为是在通用人工智能的道路上迈出了举足轻重的一步。

GPT3 有 1750 亿个参数。

GPT3 没有进行微调(fine-tuning),就可以在很多任务中表现出很好的效果。针对任务进行微调,影响了模型的通用性,也和大模型在预训练中尽可能的吸收知识的初衷不符。这样做的原因还有就是人在学习处理大部分新的文字类任务时,并不需要接受这类任务的大量数据进行专门的训练便可完成。

大型预训练模型学习了大量技能和模式识别的能力,这些能力会在推理时识别出要完成的任务是什么。也就是说,对任务的理解是其能力的一部分。

下图展示了预训练模型是怎样能学到背景知识的。

下图展示了,无实例,单个示例,多个示例 和 训练微调(fine-tuning)的区别,GPT3 没有进行微调。

下图展示了训练所用的数据,Common Crawl 是一个抓取网络内容的存储库,数据量很大,只用了其中的44%Common Crawlhttps://commoncrawl.org/

 

图片来源:论文  Language Models are Few-Shot Learners

祖国翔,

于上海

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/858028?site
推荐阅读
相关标签
  

闽ICP备14008679号