赞
踩
对无监督聚类问题:
不同于上述方法中以欧氏距离为衡量标准,SNE方法将欧式距离转化成条件概率来表示相似性:
即对样本点 x i x_i xi, x j x_j xj,不使用两者间距离作为相似度衡量,而是基于距离计算 x i x_i xi选择 x j x_j xj作为近邻的概率 p j ∣ i p_{j|i} pj∣i
同样,对降维后的 y i y_i yi, y j y_j yj,同样使用条件概率 q j ∣ i q_{j|i} qj∣i表示 y i y_i yi选择 y j y_j yj作为近邻的概率
考虑点i与其他所有点之间的关系,则构成条件概率分布 P i P_i Pi与 Q i Q_i Qi
SNE方法的核心思路即为高维下的条件概率分布 Q i Q_i Qi且应该与 P i P_i Pi一致
使用K-L散度计算两个分布之间的相似程度
使用梯度下降算法进行训练
SNE方法的问题:
改进方案T-SNE
高斯分布构建条件概率
构建样本点 x i x_i xi的条件概率分布时,可以考虑高斯分布
对高维空间中的
x
i
x_i
xi,
x
j
x_j
xj,定义
x
i
x_i
xi选择
x
j
x_j
xj作为近邻的概率
p
j
∣
i
p_{j|i}
pj∣i:
p
j
∣
i
=
e
x
p
(
−
∣
∣
x
i
−
x
j
∣
∣
2
2
σ
i
2
)
∑
k
≠
i
e
x
p
(
−
∣
∣
x
i
−
x
k
∣
∣
2
2
σ
i
2
)
)
p_{j|i}=\frac{exp(\frac{-||x_i-x_j||^2}{2\sigma_i^2})}{\sum_{k\neq i}exp(\frac{-||x_i-x_k||^2}{2\sigma_i^2}))}
pj∣i=∑k=iexp(2σi2−∣∣xi−xk∣∣2))exp(2σi2−∣∣xi−xj∣∣2)
对高维空间中的
y
i
y_i
yi,
y
j
y_j
yj,定义
y
i
y_i
yi选择
y
j
y_j
yj作为近邻的概率
q
j
∣
i
q_{j|i}
qj∣i,指定方差
σ
=
1
2
\sigma=\frac{1}{\sqrt{2}}
σ=2
1:
q
j
∣
i
=
e
x
p
(
−
∣
∣
x
i
−
x
j
∣
∣
2
)
∑
k
≠
i
e
x
p
(
−
∣
∣
x
i
−
x
k
∣
∣
2
)
)
q_{j|i}=\frac{exp(-||x_i-x_j||^2)}{\sum_{k\neq i}exp(-||x_i-x_k||^2))}
qj∣i=∑k=iexp(−∣∣xi−xk∣∣2))exp(−∣∣xi−xj∣∣2)
σ \sigma σ选取:
K-L散度
KL 散度是一个用来衡量两个概率分布的相似性的度量指标
引入 信息熵:表示一个概率分布需要的平均信息量
H
=
−
∑
i
=
1
N
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
H=-\sum_{i=1}^Np(x_i)log(p(x_i))
H=−i=1∑Np(xi)log(p(xi))
定义K-L散度:
D
K
L
(
p
∣
∣
q
)
=
∑
i
=
1
N
p
(
x
i
)
(
l
o
g
(
p
(
x
i
)
−
l
o
g
(
q
(
x
i
)
)
)
=
∑
i
=
1
N
p
(
x
i
)
l
o
g
p
(
x
i
)
q
(
x
i
)
D_{KL(p||q)}=\sum_{i=1}^Np(x_i)(log(p(x_i)-log(q(x_i)))=\sum_{i=1}^Np(x_i)log\frac{p(x_i)}{q(x_i)}
DKL(p∣∣q)=i=1∑Np(xi)(log(p(xi)−log(q(xi)))=i=1∑Np(xi)logq(xi)p(xi)
K-L散度值越小,分布p与分布q之间越接近
拥挤问题:
即,随着样本维度增大,随机样本点与 x i x_i xi点的距离分布极不平衡,其更倾向于分布在m维球的球面区域
在降维过程中,需要尽可能地将样本分布保留,会将高维空间下球面上的点集中到低维空间的球面,但低维下球面积远远小于高维,因此出现“拥挤”
“拥挤”问题会导致高维数据在降维到低维后过于集中,无法得到可信映射
t分布构建条件概率
以t分布将距离转换为条件概率公式为:
q
j
∣
i
=
(
1
+
∣
∣
y
i
−
y
j
∣
∣
2
)
−
1
∑
k
≠
l
(
1
+
∣
∣
y
k
−
y
l
∣
∣
2
)
−
1
q_{j|i}=\frac{(1+||y_i-y_j||^2)^{-1}}{\sum_{k\neq l}(1+||y_k-y_l||^2)^{-1}}
qj∣i=∑k=l(1+∣∣yk−yl∣∣2)−1(1+∣∣yi−yj∣∣2)−1
t-分布与高斯分布对比:
就上图(距离-概率分布)而言,对 p i j = q i j p_{ij}=q_{ij} pij=qij,在相似度较高的情况下(上虚线)t-分布的距离小于高斯分布;相似度较高的情况下(下虚线)t-分布的距离大于高斯分布。
t分布可以有效地将高维空间集中在球面附近的点,在低维空间中一定程度上分开。同时,也满足需求:同类样本尽可能集中,不同类样本尽可能分开。
SNE方法(Stochastic Neighbor Embedding 随机近邻嵌入):
采用高斯分布构建原空间与目标空间下的条件概率
P
i
,
Q
i
P_i, Q_i
Pi,Qi
p
i
j
=
p
j
∣
i
=
e
x
p
(
−
∣
∣
x
i
−
x
j
∣
∣
2
2
σ
i
2
)
∑
k
≠
i
e
x
p
(
−
∣
∣
x
i
−
x
k
∣
∣
2
2
σ
i
2
)
)
p_{ij}=p_{j|i}=\frac{exp(\frac{-||x_i-x_j||^2}{2\sigma_i^2})}{\sum_{k\neq i}exp(\frac{-||x_i-x_k||^2}{2\sigma_i^2}))}
pij=pj∣i=∑k=iexp(2σi2−∣∣xi−xk∣∣2))exp(2σi2−∣∣xi−xj∣∣2)
q i j = q j ∣ i = e x p ( − ∣ ∣ y i − y j ∣ ∣ 2 ) ∑ k ≠ i e x p ( − ∣ ∣ y i − y k ∣ ∣ 2 ) ) q_{ij}=q_{j|i}=\frac{exp(-||y_i-y_j||^2)}{\sum_{k\neq i}exp(-||y_i-y_k||^2))} qij=qj∣i=∑k=iexp(−∣∣yi−yk∣∣2))exp(−∣∣yi−yj∣∣2)
使用所有样本点降维前后条件概率K-L散度之和作为优化目标函数:
C
=
∑
i
=
1
N
D
K
L
(
P
i
∣
∣
Q
i
)
=
∑
i
=
1
N
∑
j
=
1
N
q
i
j
l
o
g
(
p
i
j
q
i
j
)
C=\sum_{i=1}^ND_{KL(P_i||Q_i)}=\sum_{i=1}^N\sum_{j=1}^Nq_{ij}log(\frac{p_{ij}}{q_{ij}})
C=i=1∑NDKL(Pi∣∣Qi)=i=1∑Nj=1∑Nqijlog(qijpij)
优化目标为寻找到能使函数C取最小值的低维样本集 Y = [ y 1 , y 2 , . . . , y n ] Y=[y_1,y_2,...,y_n] Y=[y1,y2,...,yn]
考虑通过动量梯度下降法对Y进行迭代更新:
y
i
t
=
y
i
t
−
1
+
η
∂
C
∂
y
i
+
α
(
t
)
(
y
i
t
−
1
−
y
i
t
−
2
)
y_i^t=y_i^{t-1}+\eta\frac{\partial C}{\partial y_i}+\alpha(t)(y_i^{t-1}-y_i^{t-2})
yit=yit−1+η∂yi∂C+α(t)(yit−1−yit−2)
求导过程:
定义中间变量:
q i j = w i j ∑ k w i k q_{ij}=\frac{w_{ij}}{\sum_{k}w_ik} qij=∑kwikwij
w
i
j
w_{ij}
wij:
y
i
,
y
j
y_i,y_j
yi,yj之间相似度
w
i
j
=
e
x
p
(
−
∣
∣
y
i
−
y
j
∣
∣
2
)
=
e
x
p
(
−
f
i
j
)
w_{ij}=exp(-||y_i-y_j||^2)=exp(-f_{ij})
wij=exp(−∣∣yi−yj∣∣2)=exp(−fij)
f
i
j
f_{ij}
fij:
y
i
,
y
j
y_i,y_j
yi,yj之间距离度量
f
i
j
=
∣
∣
y
i
−
y
j
∣
∣
2
=
d
i
j
2
f_{ij}=||y_i-y_j||^2=d_{ij}^2
fij=∣∣yi−yj∣∣2=dij2
d
i
j
d_{ij}
dij:
y
i
,
y
j
y_i,y_j
yi,yj之间欧氏距离
d
i
j
=
∣
∣
y
i
−
y
j
∣
∣
d_{ij}=||y_i-y_j||
dij=∣∣yi−yj∣∣
通过求导链式法则,可得:
∂
C
∂
y
h
=
∑
i
j
∂
C
∂
q
i
j
∑
k
l
∂
q
i
j
∂
w
k
l
∑
m
n
∂
w
k
l
∂
f
m
n
∑
p
q
∂
f
m
n
∂
d
p
q
∂
d
p
q
∂
y
h
\frac{\partial C}{\partial y_h}=\sum_{ij}\frac{\partial C}{\partial q_{ij}}\sum_{kl}\frac{\partial q_{ij}}{\partial w_{kl}}\sum_{mn}\frac{\partial w_{kl}}{\partial f_{mn}}\sum_{pq}\frac{\partial f_{mn}}{\partial d_{pq}}\frac{\partial d_{pq}}{\partial y_h}
∂yh∂C=ij∑∂qij∂Ckl∑∂wkl∂qijmn∑∂fmn∂wklpq∑∂dpq∂fmn∂yh∂dpq
由于
w
,
f
,
d
w,f,d
w,f,d交叉项为0,除非
p
=
m
=
k
p=m=k
p=m=k且
q
=
n
=
l
q=n=l
q=n=l,故:
∂
C
∂
y
h
=
∑
i
j
∂
C
∂
q
i
j
∑
k
l
∂
q
i
j
∂
w
k
l
∂
w
k
l
∂
f
k
l
∂
f
k
l
∂
d
k
l
∂
d
k
l
∂
y
h
\frac{\partial C}{\partial y_h}=\sum_{ij}\frac{\partial C}{\partial q_{ij}}\sum_{kl}\frac{\partial q_{ij}}{\partial w_{kl}}\frac{\partial w_{kl}}{\partial f_{kl}}\frac{\partial f_{kl}}{\partial d_{kl}}\frac{\partial d_{kl}}{\partial y_h}
∂yh∂C=ij∑∂qij∂Ckl∑∂wkl∂qij∂fkl∂wkl∂dkl∂fkl∂yh∂dkl
再,仅当
k
=
i
k=i
k=i时,
∂
C
∂
q
i
j
≠
0
\frac{\partial C}{\partial q_{ij}}\neq 0
∂qij∂C=0,故:
∂
C
∂
y
h
=
∑
i
j
∂
C
∂
q
i
j
∑
l
∂
q
i
j
∂
w
i
l
∂
w
i
l
∂
f
i
l
∂
f
i
l
∂
d
i
l
∂
d
i
l
∂
y
h
\frac{\partial C}{\partial y_h}=\sum_{ij}\frac{\partial C}{\partial q_{ij}}\sum_{l}\frac{\partial q_{ij}}{\partial w_{il}}\frac{\partial w_{il}}{\partial f_{il}}\frac{\partial f_{il}}{\partial d_{il}}\frac{\partial d_{il}}{\partial y_h}
∂yh∂C=ij∑∂qij∂Cl∑∂wil∂qij∂fil∂wil∂dil∂fil∂yh∂dil
对
∂
d
i
l
∂
y
h
\frac{\partial d_{il}}{\partial y_h}
∂yh∂dil,仅当
i
=
h
或
l
=
h
i=h或l=h
i=h或l=h时非零,故:
∂
C
∂
y
h
=
∑
i
j
∂
C
∂
q
i
j
∂
q
i
j
∂
w
i
h
∂
w
i
h
∂
f
i
h
∂
f
i
h
∂
d
i
h
∂
d
i
h
∂
y
h
+
∑
j
l
∂
C
∂
q
h
j
∂
q
h
j
∂
w
h
l
∂
w
h
l
∂
f
h
l
∂
f
h
l
∂
d
h
l
∂
d
h
l
∂
y
h
\frac{\partial C}{\partial y_h}=\sum_{ij}\frac{\partial C}{\partial q_{ij}}\frac{\partial q_{ij}}{\partial w_{ih}}\frac{\partial w_{ih}}{\partial f_{ih}}\frac{\partial f_{ih}}{\partial d_{ih}}\frac{\partial d_{ih}}{\partial y_h} + \sum_{jl}\frac{\partial C}{\partial q_{hj}}\frac{\partial q_{hj}}{\partial w_{hl}}\frac{\partial w_{hl}}{\partial f_{hl}}\frac{\partial f_{hl}}{\partial d_{hl}}\frac{\partial d_{hl}}{\partial y_h}
∂yh∂C=ij∑∂qij∂C∂wih∂qij∂fih∂wih∂dih∂fih∂yh∂dih+jl∑∂qhj∂C∂whl∂qhj∂fhl∂whl∂dhl∂fhl∂yh∂dhl
在此进行下标替换(由于前后两式独立计算,所以中间变量下标可以进行任意计算):
前式中进行替换:j->l ; i->j;后式进行替换:j->l ; l->j;再将两式中h替换为i,有:
∂
C
∂
y
i
=
∑
j
l
∂
C
∂
q
j
l
∂
q
j
l
∂
w
j
i
∂
w
j
i
∂
f
j
i
∂
f
j
i
∂
d
j
i
∂
d
j
i
∂
y
i
+
∑
j
l
∂
C
∂
q
i
l
∂
q
i
l
∂
w
i
l
∂
w
i
j
∂
f
i
j
∂
f
i
j
∂
d
i
j
∂
d
i
j
∂
y
i
\frac{\partial C}{\partial y_i}=\sum_{jl}\frac{\partial C}{\partial q_{jl}}\frac{\partial q_{jl}}{\partial w_{ji}}\frac{\partial w_{ji}}{\partial f_{ji}}\frac{\partial f_{ji}}{\partial d_{ji}}\frac{\partial d_{ji}}{\partial y_i} + \sum_{jl}\frac{\partial C}{\partial q_{il}}\frac{\partial q_{il}}{\partial w_{il}}\frac{\partial w_{ij}}{\partial f_{ij}}\frac{\partial f_{ij}}{\partial d_{ij}}\frac{\partial d_{ij}}{\partial y_i}
∂yi∂C=jl∑∂qjl∂C∂wji∂qjl∂fji∂wji∂dji∂fji∂yi∂dji+jl∑∂qil∂C∂wil∂qil∂fij∂wij∂dij∂fij∂yi∂dij
d与f时对称的,有
d
i
j
=
d
j
i
,
f
i
j
=
f
j
i
d_{ij}=d_{ji}, f_{ij}=f_{ji}
dij=dji,fij=fji,故:
∂
C
∂
y
i
=
∑
j
(
∑
l
∂
C
∂
q
j
l
∂
q
j
l
∂
w
j
i
∂
w
j
i
∂
f
j
i
+
∑
l
∂
C
∂
q
i
l
∂
q
i
l
∂
w
i
j
∂
w
i
j
∂
f
i
j
)
∂
f
i
j
∂
d
i
j
∂
d
i
j
∂
y
i
\frac{\partial C}{\partial y_i}=\sum_j(\sum_{l}\frac{\partial C}{\partial q_{jl}}\frac{\partial q_{jl}}{\partial w_{ji}}\frac{\partial w_{ji}}{\partial f_{ji}}+\sum_{l}\frac{\partial C}{\partial q_{il}}\frac{\partial q_{il}}{\partial w_{ij}}\frac{\partial w_{ij}}{\partial f_{ij}})\frac{\partial f_{ij}}{\partial d_{ij}}\frac{\partial d_{ij}}{\partial y_i}
∂yi∂C=j∑(l∑∂qjl∂C∂wji∂qjl∂fji∂wji+l∑∂qil∂C∂wij∂qil∂fij∂wij)∂dij∂fij∂yi∂dij
令:
∂
C
∂
y
i
=
∑
j
(
k
j
i
+
k
i
j
)
∂
f
i
j
∂
d
i
j
∂
d
i
j
∂
y
i
\frac{\partial C}{\partial y_i}=\sum_j(k_{ji}+k_{ij})\frac{\partial f_{ij}}{\partial d_{ij}}\frac{\partial d_{ij}}{\partial y_i}
∂yi∂C=j∑(kji+kij)∂dij∂fij∂yi∂dij
k i j = ∑ l [ ∂ C ∂ q i l ∂ q i l ∂ w i j ] ∂ w i j ∂ f i j k_{ij}=\sum_{l}\left[\frac{\partial C}{\partial q_{il}}\frac{\partial q_{il}}{\partial w_{ij}}\right]\frac{\partial w_{ij}}{\partial f_{ij}} kij=l∑[∂qil∂C∂wij∂qil]∂fij∂wij
接下来求解 k i j , ∂ q i l ∂ w i l ∂ w i j ∂ f i j k_{ij},\frac{\partial q_{il}}{\partial w_{il}}\frac{\partial w_{ij}}{\partial f_{ij}} kij,∂wil∂qil∂fij∂wij:
由于f,d表达式已知,直接求导得:
∂
f
i
j
∂
d
i
j
∂
d
i
j
∂
y
i
=
2
(
y
i
−
y
j
)
\frac{\partial f_{ij}}{\partial d_{ij}}\frac{\partial d_{ij}}{\partial y_i}=2(y_i-y_j)
∂dij∂fij∂yi∂dij=2(yi−yj)
求
k
i
j
k_{ij}
kij过程:
已知
q
i
j
=
w
i
j
∑
k
w
i
k
=
w
i
j
S
i
q_{ij}=\frac{w_{ij}}{\sum_{k}w_{ik}}=\frac{w_{ij}}{S_i}
qij=∑kwikwij=Siwij
∂ q i j ∂ w i j = S i − w i j S i 2 = 1 S i − w i j S i 2 = 1 S i − q i j S i \frac{\partial q_{ij}}{\partial w_{ij}}=\frac{S_i-w_{ij}}{S_i^2}=\frac1{S_i}-\frac{w_{ij}}{S_i^2}=\frac1{S_i}-\frac{q_{ij}}{S_i} ∂wij∂qij=Si2Si−wij=Si1−Si2wij=Si1−Siqij
∂ q i k ∂ w i j = − w i k S i 2 = − q i k S i ( l ≠ j ) \frac{\partial q_{ik}}{\partial w_{ij}}=-\frac{w_{ik}}{S_i^2}=-\frac{q_{ik}}{S_i} \ \ \ \ (l\neq j) ∂wij∂qik=−Si2wik=−Siqik (l=j)
带入
k
i
j
k_{ij}
kij(i,j固定)得:
k
i
j
=
∑
l
[
∂
C
∂
q
i
l
∂
q
i
l
∂
w
i
j
]
∂
w
i
j
∂
f
i
j
=
[
∂
C
∂
q
i
j
∂
q
i
j
∂
w
i
j
+
∑
l
≠
j
∂
C
∂
q
i
l
∂
q
i
l
∂
w
i
j
]
∂
w
i
j
∂
f
i
j
=
[
∂
C
∂
q
i
j
(
1
S
i
−
q
i
j
S
i
)
−
∑
l
≠
j
∂
C
∂
q
i
l
q
i
k
S
i
]
∂
w
i
j
∂
f
i
j
=
1
S
i
[
∂
C
∂
q
i
j
−
∑
l
∂
C
∂
q
i
l
q
i
l
]
∂
w
i
j
∂
f
i
j
求
∂
C
∂
q
i
j
\frac{\partial C}{\partial q_{ij}}
∂qij∂C
C
=
∑
i
=
1
N
D
K
L
(
P
i
∣
∣
Q
i
)
=
∑
i
=
1
N
∑
j
=
1
N
q
i
j
l
o
g
(
p
i
j
q
i
j
)
∂
C
∂
q
i
j
=
−
p
i
j
q
i
j
C=\sum_{i=1}^ND_{KL(P_i||Q_i)}=\sum_{i=1}^N\sum_{j=1}^Nq_{ij}log(\frac{p_{ij}}{q_{ij}})\\ \frac{\partial C}{\partial q_{ij}}=-\frac{p_{ij}}{q_{ij}}
C=i=1∑NDKL(Pi∣∣Qi)=i=1∑Nj=1∑Nqijlog(qijpij)∂qij∂C=−qijpij
求
∂
w
i
j
∂
f
i
j
\frac{\partial w_{ij}}{\partial f_{ij}}
∂fij∂wij
f
i
j
=
∣
∣
y
i
−
y
j
∣
∣
2
=
d
i
j
2
∂
w
i
j
∂
f
i
j
=
−
w
i
j
f_{ij}=||y_i-y_j||^2=d_{ij}^2\\ \frac{\partial w_{ij}}{\partial f_{ij}}=-w_{ij}
fij=∣∣yi−yj∣∣2=dij2∂fij∂wij=−wij
k
i
j
=
1
S
i
(
−
p
i
j
q
i
j
−
∑
l
(
−
p
i
l
q
i
l
)
q
i
l
)
(
−
w
i
j
)
=
q
i
j
(
p
i
j
q
i
j
−
1
)
=
q
i
j
−
p
i
j
综上所述,得:
∂
C
∂
y
i
=
∑
j
(
k
j
i
+
k
i
j
)
∂
f
i
j
∂
d
i
j
∂
d
i
j
∂
y
i
=
2
∑
j
(
p
i
j
−
q
i
j
+
p
j
i
−
q
j
i
)
(
y
i
−
y
j
)
T-SNE方法
T-SNE方法与SNE方法的不同之处在于分布概率的计算:
p j ∣ i = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 σ i 2 ) ∑ k ≠ i e x p ( − ∣ ∣ x i − x k ∣ ∣ 2 2 σ i 2 ) ) p_{j|i}=\frac{exp(\frac{-||x_i-x_j||^2}{2\sigma_i^2})}{\sum_{k\neq i}exp(\frac{-||x_i-x_k||^2}{2\sigma_i^2}))} pj∣i=∑k=iexp(2σi2−∣∣xi−xk∣∣2))exp(2σi2−∣∣xi−xj∣∣2)
q j ∣ i = ( 1 + ∣ ∣ y i − y j ∣ ∣ 2 ) − 1 ∑ k ≠ l ( 1 + ∣ ∣ y k − y l ∣ ∣ 2 ) − 1 q_{j|i}=\frac{(1+||y_i-y_j||^2)^{-1}}{\sum_{k\neq l}(1+||y_k-y_l||^2)^{-1}} qj∣i=∑k=l(1+∣∣yk−yl∣∣2)−1(1+∣∣yi−yj∣∣2)−1
p i j = p j i = p i j + p j i 2 q i j = q j i = q i j + q j i 2 p_{ij}=p_{ji}=\frac{p_{ij}+p_{ji}}2\\ q_{ij}=q_{ji}=\frac{q_{ij}+q_{ji}}2 pij=pji=2pij+pjiqij=qji=2qij+qji
目标依然是:
C
=
∑
i
=
1
N
D
K
L
(
P
i
∣
∣
Q
i
)
=
∑
i
=
1
N
∑
j
=
1
N
q
i
j
l
o
g
(
p
i
j
q
i
j
)
C=\sum_{i=1}^ND_{KL(P_i||Q_i)}=\sum_{i=1}^N\sum_{j=1}^Nq_{ij}log(\frac{p_{ij}}{q_{ij}})
C=i=1∑NDKL(Pi∣∣Qi)=i=1∑Nj=1∑Nqijlog(qijpij)
对于
y
i
y_i
yi的求导过程与SNE过程类似,最终求得:
∂
C
∂
y
i
=
4
∑
j
(
p
i
j
−
q
i
j
)
(
1
+
∣
∣
y
i
−
y
j
∣
∣
2
)
−
1
更新公式:
y
i
t
=
y
i
t
−
1
+
η
∂
C
∂
y
i
+
α
(
t
)
(
y
i
t
−
1
−
y
i
t
−
2
)
y_i^t=y_i^{t-1}+\eta\frac{\partial C}{\partial y_i}+\alpha(t)(y_i^{t-1}-y_i^{t-2})
yit=yit−1+η∂yi∂C+α(t)(yit−1−yit−2)
【1】[从SNE到t-SNE再到LargeVis][http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/]
【2】[机器学习:Kullback-Leibler Divergence (KL 散度)][https://blog.csdn.net/matrix_space/article/details/80550561]
【3】[SNE与t-SNE梯度的推导][https://zhuanlan.zhihu.com/p/384698107]
【4】[t-SNE原理与推导][https://blog.csdn.net/scott198510/article/details/76099700]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。