当前位置:   article > 正文

万字长文深度剖析AIGC技术!(网络架构&自监督)

aigc技术栈

作者 | 派派星  编辑 | CVHub

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

前景回顾

Welcome to back! 在《万字长文带你解读AIGC入门篇》 一文中,我们详细为大家介绍了AIGC的相关概念、背景及其如此火爆的原因,接下来我们将进一步深入探讨AIGC背后的技术栈。

作为本系列的技术篇,将从多个角度来介绍AIGC的技术栈,其中包括了TransformerSSLVAEGANDiffusion等大家均耳熟能详的词汇,这些技术都是AIGC领域中必不可少且非常重要的一部分,对于理解AIGC的原理和实现方式都非常关键。下面开始吧?

3. AIGC 背后的基础技术

本文将 AIGC 视为一组使用人工智能方法生成内容的任务或应用程序。其中,生成技术是指使用机器学习模型生成新的内容,例如 GAN 和扩散模型。创作技术是指利用生成技术生成的内容进行进一步的创作和编辑,例如对生成的文本进行编辑和改进。

3.1 生成技术

AlexNet的惊人成功之后,深度学习引起了极大的关注,它有点成为了人工智能的代名词。与传统的基于规则的算法不同,深度学习是一种数据驱动的方法,通过随机梯度下降优化模型参数。深度学习在获取卓越的特征表示方面的成功,取决于更好的网络架构和更多的数据,这极大地加速了AIGC的发展。

3.1.1 网络架构

众所周知,深度学习的两个主流领域是自然语言处理(NLP)和计算机视觉(CV),它们的研究显著改进了骨干架构,并在其他领域启发了改进后骨干架构的各种应用,例如语音领域。在 NLP 领域,Transformer 架构已经取代了循环神经网络(RNN)成为事实上的标准骨干。而在 CV 领域,视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外,也展示了其强大的性能。在这里,我们将简要介绍这些主流骨干架构的工作原理及其代表性的变种。

  • RNN & LSTM & GRU

RNN主要用于处理时间序列数据,例如语言音频。标准的RNN有三层:输入层隐藏层输出层RNN的信息流有两个方向,第一个方向是从输入到隐藏层再到输出的方向。而RNN中循环的本质在于其沿着时间方向的第二个信息流。除了当前的输入,当前时刻

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/54311?site
推荐阅读
相关标签