chatGPT 背后的技术之 GPT3_chatgpt3

作者：一键难忘520 | 2024-07-20 19:12:23

踩

chatgpt3

chatGPT是由openAI 公司发布的大型语言对话机器学习模型，因为其强大的功能，可以帮助编程，可以咨询问题，可以检查语法错误等等，而在最近半年火爆全网。

chatGPT 背后的技术是 GPT3.5，其本质是大型预训练语言模型。

GPT3.5 是在 GPT3 的基础上进行了微调（fine-tuning），具体进行了什么微调我们在后面的文章中会介绍，今天我们先介绍GPT3.

GPT3 的详细介绍在 Language Models are Few-Shot Learners 这篇论文中，https://arxiv.org/abs/2005.14165 点击网页链接中的Download 下的 PDF 就可以下载论文原文。

论文中的重点如下：

GPT3 的网络结构和 GPT2 是一样的（GPT2 会在后面的文章中详细介绍），但GPT3 的模型尺寸比GPT2大两个数量级。

和GPT2的主要不同是，GPT3 使用了 Sparse Transformer。

训练的数据集进行了一些处理，增加了一些可信度高的文本的学习次数。

GPT3 可以处理多种文本相关的任务，如填词，回答问题，阅读理解等，不再需要对特性任务进行分别训练，可以认为是在通用人工智能的道路上迈出了举足轻重的一步。

GPT3 有 1750 亿个参数。

GPT3 没有进行微调（fine-tuning），就可以在很多任务中表现出很好的效果。针对任务进行微调，影响了模型的通用性，也和大模型在预训练中尽可能的吸收知识的初衷不符。这样做的原因还有就是人在学习处理大部分新的文字类任务时，并不需要接受这类任务的大量数据进行专门的训练便可完成。

大型预训练模型学习了大量技能和模式识别的能力，这些能力会在推理时识别出要完成的任务是什么。也就是说，对任务的理解是其能力的一部分。

下图展示了预训练模型是怎样能学到背景知识的。

下图展示了，无实例，单个示例，多个示例和训练微调（fine-tuning）的区别，GPT3 没有进行微调。

下图展示了训练所用的数据，Common Crawl 是一个抓取网络内容的存储库，数据量很大，只用了其中的44%Common Crawlhttps://commoncrawl.org/

图片来源：论文 Language Models are Few-Shot Learners

祖国翔,

于上海

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/858028?site

chatGPT 背后的技术 之 GPT3_chatgpt3