这个屌丝很懒，什么也没留下！

GPT笔记_csdn gpt

作者：我家小花儿 | 2024-04-07 09:47:31

GPT笔记

GPT与Transformer中解码器的结构类似。GPT由多个Transformer中的解码器块组成，与Transformer中解码器不同在于没有编码器-解码器注意力层。因此，GPT中解码器块由遮蔽自注意力层和基于位置的前馈神经网络。

GPT-2和传统的语言模型一样，一次只输出一个token。

模型通过语言模型方法进行学习。将原始文本与译文用特殊符号隔开输入到模型中，学习每个位置输出的损失，最小化平均损失对模型进行训练

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】