赞
踩
论文《Deep Learning》 (深度学习)
作者:Yann Lecun, Yoshua Bengio, Geoffery Hinton
单位: FAIR, NYU, UMontreal, Utoronto, Google
发表会议及时间:《Nature》杂志
1、论文作者简介
2019年3月27日,美国计算机协会(ACM)宣布把2018年的图灵奖(Turing Award)颁给人工智能科学家Yoshua Bengio,Geoffery Hinton和Yann Lecun,以表彰他们为当前人工智能的繁荣发展所奠定的基础。
Geoffery Hinton
谷歌副总裁兼工程研究员,Vector Institute的首席科学顾问,多伦多大学的名誉教授;
重要贡献:
Yann LeCun
纽约大学教授,Facebook副总裁和首席人工智能科学家;
重要贡献:
Yoshua Bengio
蒙特利尔大学教授,魁北克人工智能研究所Mila科学主任,著作《深度学习》花书作者之一;
重要贡献:
2、前期知识储备
应用数学和机器学习基础
线性代数 | 本科线性代数知识 |
---|---|
概率与信息论 | 本科概率知识 |
数值计算 | 梯度优化、约束优化等方法 |
机器学习基础 | 过拟合、欠拟合、超参数等 |
3、课程安排和学习建议
课程要求
学习建议
4、深度学习背景介绍
论文第一节对深度学习背景进行介绍;
机器学习应用方向:
机器学习现实中的应用:
传统方法:
表示学习:
深度学习方法
深度学习的关键
深度前馈网络
基本结构组成:
5、监督学习(Supervised Learning)
图像识别训练过程
监督学习是从有限的数据中去监督网络进行特征学习,上图是图像识别过程,最左侧有三种不同的数据输入(三种不同的图片)。中间的前馈神经网络就会从给定的输入数据以及它们对应的标签去学习图像中的特征,通过学习到的特征对任意三个类别中的数据进行分类,最终到达良好的分类效果。监督学习就是给定数据和相应的标签,神经网络可以通过数据以及相应的标签去学习数据中的特征,最终达到输出相应结果的目的。
监督学习训练步骤
最优化手段:随机梯度下降(Stochastic Gradient Descent, SGD)
随机梯度下降(SGD)
随机梯度下降法在训练过程中会初始化所有的权重参数,比如说
θ
0
\theta^0
θ0是一个二维向量,那么首先会为
θ
0
\theta^0
θ0分配一个初始权重。在学习过程中会通过标好的类别以及一个图像经过神经网络预测的结果之间的差来计算损失,损失可以通过神经网络反向从输出传回到输入,在传回的过程中损失会不断和中间每一层权重参数计算梯度,或者说计算偏导数,得到所有参数的偏导数乘于一个学习率,利用原来的初始化参数减去学习率乘于偏导数的值,那么就完成了一次参数更新,这就是随机梯度下降。
监督学习 vs 深度学习
6、反向传播——一种用于计算梯度的方法
链式法则
激活函数
7、卷积神经网络基础
输入信号的维度
卷积神经网络的关键
上面这幅图为大家很直观地带来了卷积神经网络的图像理解过程。输入一张图像,这张图像是三维通道,包括Red通道,Green通道和Blue通道。卷积神经中的每一个卷积核都会识别这个图像里的一个特征信息,经过多层卷积降采样进行组合,那么图像会不断地降维,特征图在每一个通道上维度都不相同。卷积神经网络会通过不同的维度、不同的卷积层去学习不同的特征,比如最靠近输入层,卷积神经网络会学习到一些比较简单的边缘纹理信息,越靠近输出层,卷积神经网络能学习到的信息越具备高级的语义。
卷积审计网络主要层次结构
(1)卷积层
(2)这样设计的好处
(3)池化层
通常将2-3个卷积层+非线性激活函数+池化层作为一个模块;一个模型通常包含多个这种模块;
卷积神经网络多级结构的功能
卷积神经网络的反向传播计算和常规的深度网络计算一样简单;
卷积层和池化层:来自于视觉神经科学中简单细胞和复杂细胞的经典概念;
8、经典卷积神经网络
LeNet
来自于Yann Lecun,卷积神经网络的开山之作,用于解决手写数字识别的视觉任务;
AlexNet
在2012年ImageNet竞赛中以超过第二名10.9个百分点的绝对优势一举夺冠;
VGG
由牛津大学VGG组提出,2014年ImageNet竞赛定位任务第一名和分类任务第二名;
GoogleNet
2014年的ImageNet分类任务上击败了VGG-Nets夺得冠军;
ResNet
2015年何恺明推出的ResNet在ISLVRC和COCO上横扫了所有选手获得冠军;
DenseNet
CVPR2017最佳论文DenseNet
9、基于CNN的图像理解
人脸识别
服装识别
10、分布式特征表示&语言处理
分布式特征表示是深度学习的一个核心概念:发现数据之间的语义相似性;下面这个图是分布式特征表示的形象理解过程;
首先给出四个图形,有四种不同的描述方法,第一个是横向的矩阵(Horizontal Rectangle),第二个描述的是纵向的矩阵(Vertical Rectangle),第三个描述是横向的椭圆(Horizontal Ellipse),第四个描述是纵向的椭圆(Vertical Ellipse)。这是一个非常稀疏的局部的表示方法,对于每一个图形都可以明确一个类别。
如果变成一个分布式的特征表示,也只需要四种表示,在第二个图中,第一个特征不再是水平矩阵,变为水平(Horizontal),第二个特征是竖直(Vertical),第三个特征是矩形(Rectangle),第四个特征是椭圆(Ellipse)。任意一个图形都可以用其中两个特征进行表示,这种表示方法增加了特征表示的稠密性。对于一个圆形,怎么用分布式特征表示呢?分布式特征表示会更加有用,因为它能够提供一个新的图形是如何与其它图形相关联的信息。比如一个圆形,如图3,可以表示为水平、竖直、椭圆三种特征。这就是分布式特征表示所能带来的好处。它能够发现数据之间的语义相似性。
深度网络两个巨大优势
示例:预测语句中下一个单词?
从文本中学习到的单词的向量表示在自然语言应用中广泛使用;
提出一个问题
杭州
[
0
,
0
,
0
,
0
,
0
,
0
,
0
,
1
,
0
,
.
.
.
,
0
,
0
,
0
,
0
,
0
,
0
,
0
]
[0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0]
[0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0]
上海
[
0
,
0
,
0
,
0
,
1
,
0
,
0
,
0
,
0
,
.
.
.
,
0
,
0
,
0
,
0
,
0
,
0
,
0
]
[0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0]
[0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0]
宁波
[
0
,
1
,
0
,
0
,
0
,
0
,
0
,
0
,
0
,
.
.
.
,
0
,
0
,
0
,
0
,
0
,
0
,
0
]
[0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0]
[0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0]
北京
[
0
,
0
,
0
,
0
,
0
,
0
,
0
,
0
,
0
,
.
.
.
,
⋅
,
0
,
0
,
0
,
0
,
0
,
0
]
[0,0,0,0,0,0,0,0,0,...,·,0,0,0,0,0,0]
[0,0,0,0,0,0,0,0,0,...,⋅,0,0,0,0,0,0]
在语料库中,杭州、上海、宁波、北京各对应一个向量,向量中只有一个值为1,其余为0,所有向量都表现出非常稀疏的特性。请问能不能把词向量的维度变小呢?
如果语料库中有成百上千甚至几百万几千万,几个亿的不同的词,向量的维度会非常大,这个向量会表现得非常稀疏。为了降低向量的维度,就引出了Word-embedding的方法。
Word-embedding
上图中,假设3个词在3个不同的维度中,将三个词同时映射到一个嵌入空间,这3个词都可以在这个嵌入空间的二维坐标中进行表示,就成功地将高维词向量 嵌入到一个低维的空间。在二维空间中,可以更好更容易地分析出三个词之间的关系。
由此引出了一个在自然语言处理中非常常用的方法,Word2Vec。
Word2Vec
N-grams
上图给出了Word-embedding的一个形式化展示,在一个二维坐标系中,把词汇或者词组表示成不同的向量,就可以被嵌入到二维的特征空间中,在二维的特征空间中可以很方便地计算两个词或者两个词组之间的距离,也就是他们之间的相似性或者他们之间的关系。
11、循环神经网络
RNN
给出一个实例:
这个图展示了一个实例,给定一个单词“大海”,通过循环神经网络计算出了一个向量,这个向量返回概率最高的值,下一个词是“的”的概率是0.8,下一个词是“是”的概率是0.15,因此采取概率最大的词。第二个词是“的”,它会预测下一时刻出现概率最大的词,概率最大的词是“颜色”。“颜色”预测下一个时刻出现概率最大的词是“是”,接下来预测出现概率最大的词是一个颜色。因此循环神经网络可以达到预测下一个单词或者下一时刻序列数据的能力。
前面说了RNN很难长时间保存序列数据的状态信息,为了解决这个问题,前人发明了LSTM。
LSTM
RNN同样可以具备一个双向传递的过程,下图中的第二个图就展示了Bi-directional RNN,也就是双向RNN模型。
12、未来展望
(1)无监督学习(Unsupervised Learning)
无监督学习问题可以进一步分为聚类问题和关联问题
(2)强化学习(Reinforcement Learning)
通常用马尔科夫决策过程来描述:
在深度学习或者在图像识别中,一个非常经典的领域是生成式对抗网络(GAN)。
GAN网络由两个主要组件:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。