赞
踩
2023/04/15
随着 AlexNet [1] 的出现,过去十年里深度学习得到了快速的发展,而卷积神经网络也从 AlexNet 逐步发展到了 VGG [2]、ResNet [3]、DenseNet [4]、HRNet [5] 等更深的网络结构。研究者们发现,网络越深模型的性能越好。然而,经过多年的发展,研究者们逐渐触碰到了卷积神经网络的极限,而其规模也只发展到了千万到亿的数量级,例如 ResNet-152 的参数量大约为 60 Million (M),HRNet_W64 大约为 128M。2017 年,谷歌首次提出了 Transformer [6] 架构,并在自然语言、视觉等多个领域得到了广泛的应用。
在自然语言领域,谷歌提出了基于自监督学习的语言模型 BERT [7],利用少量的训练数据进行微调后在多个下游任务上取得了革命性的性能提升。随后,OpenAI 也提出了 GPT-1/2/3 语言模型 [8–10]。值得一提的是,GPT-3 [10] 的参数量已经达到 175 Billion (B),这已经比 HRNet_W64 高出 3 个数量级。特别地,2022 年 11 月,他们公布了 ChatGPT [11] 大模型,通过在 GPT-3 的升级版本 GPT-3.5 上添加人类反馈强化学习 (RLHF) 的微调机制,极大地提升了模型的性能。由于其在聊天、检索等多个领域上的出色表现,ChatGPT 吸引了全球广泛的关注,并开启了大模型研究的新时代。今年 3 月份,他们通过进一步添加图像输入,提出了 GPT-4 [12] 大模型,这也标志这 GPT 家族从单一的语言大模型跨入到多模态大模型。此外,2022 年,Meta 也发布了他们的语言大模型 OPT [13],参数量跟 GPT-3 一致,达到了 175B。值得一提的是,他们将代码和模型进行了开源,并详细公布了整个训练过程中遇到的问题日志,极大地促进了大模型的落地。2022 年 4 月,谷歌提出语言大模型 PaLM [14],参数量达到 540B,训练过程中使用了 6144 个 TPUs。在国内,2021 年,百度提出参数量为 10B 的中文语言大模型 ERNIE 3.0 [15]。并进一步提出更大参数规模的 ERNIE 3.0 Titan [16],参数量达到 260B。此外,华为提出中文语言大模型“PanGu-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。