万字长文深度剖析AIGC技术！（网络架构&自监督）

作者：编程探险家 | 2024-02-01 16:55:26

踩

aigc技术栈

作者 | 派派星编辑 | CVHub

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

前景回顾

Welcome to back! 在《万字长文带你解读AIGC入门篇》一文中，我们详细为大家介绍了AIGC的相关概念、背景及其如此火爆的原因，接下来我们将进一步深入探讨AIGC背后的技术栈。

作为本系列的技术篇，将从多个角度来介绍AIGC的技术栈，其中包括了Transformer、SSL、VAE、GAN、Diffusion等大家均耳熟能详的词汇，这些技术都是AIGC领域中必不可少且非常重要的一部分，对于理解AIGC的原理和实现方式都非常关键。下面开始吧？

3. AIGC 背后的基础技术

本文将 AIGC 视为一组使用人工智能方法生成内容的任务或应用程序。其中，生成技术是指使用机器学习模型生成新的内容，例如 GAN 和扩散模型。创作技术是指利用生成技术生成的内容进行进一步的创作和编辑，例如对生成的文本进行编辑和改进。

3.1 生成技术

在AlexNet的惊人成功之后，深度学习引起了极大的关注，它有点成为了人工智能的代名词。与传统的基于规则的算法不同，深度学习是一种数据驱动的方法，通过随机梯度下降优化模型参数。深度学习在获取卓越的特征表示方面的成功，取决于更好的网络架构和更多的数据，这极大地加速了AIGC的发展。

3.1.1 网络架构

众所周知，深度学习的两个主流领域是自然语言处理(NLP)和计算机视觉(CV)，它们的研究显著改进了骨干架构，并在其他领域启发了改进后骨干架构的各种应用，例如语音领域。在 NLP 领域，Transformer 架构已经取代了循环神经网络(RNN)成为事实上的标准骨干。而在 CV 领域，视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外，也展示了其强大的性能。在这里，我们将简要介绍这些主流骨干架构的工作原理及其代表性的变种。

RNN & LSTM & GRU

RNN主要用于处理时间序列数据，例如语言或音频。标准的RNN有三层：输入层、隐藏层和输出层。RNN的信息流有两个方向，第一个方向是从输入到隐藏层再到输出的方向。而RNN中循环的本质在于其沿着时间方向的第二个信息流。除了当前的输入，当前时刻

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/54311?site