当前位置:   article > 正文

CAN-NER Convolutional Attention Network for Chinese Named Entity Recognition_can-ner: convolutional attention network for chine

can-ner: convolutional attention network for chinese named entity recognitio
CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition
总结

作者提出了基于注意力机制的卷积神经网络架构,用于中文命名实体识别。

主要的框架是CNN with the local-attentionBi-GRU with global self-attention

总体的框架图如下:

Convolutional Attention Layer

字符的嵌入输入 x x x

x = [ x c h ; x p o s ; x s e g ] x = [x_{ch}; x_{pos};x_{seg}] x=[xch;xpos;xseg]
x c h x_{ch} xch代表word2vec的词向量
x p o s x_{pos} xpos: 代表local context position。CNN的windows size是 k k k, x p o s x_{pos} xpos的维度为 k k k,独热编码表示
x s e g x_{seg} xseg:作者说是由BMES模式编码的分词信息,没有具体解释
  • local attention步骤

    cnn windows有k个元素, x j − k − 1 2 , . . . x j . . . . x j + k + 1 2 x_{j-\frac{k-1}{2}}, ...x_j....x_{j+\frac{k+1}{2}} xj2k1,...xj....xj+2k+1
    s ( x j , x k ) = v T t a n h ( W 1 x j + W 2 x k ) s(x_j,x_k) = v^{T} tanh(W_1x_j + W_2x_k) s(xj,xk)=vTtanh(W1xj+W2xk)

    v ∈ R d h W 1 ; W 2 ∈ R d h ; d e v \in R^{d_h} W_1; W_2 \in R^{{d_h};de} vRdhW1;W2Rdh;de

    α m = e x p s ( x j , x m ) ∑ n ∈ { j − k − 1 2 , . . . , j − k + 1 2 } e x p   s ( x j ; x n ) α_m = \frac {exp s(x_j,x_m)}{\sum_{n \in \{j-\frac{k-1}{2},...,j-\frac{k+1}{2} \}} exp \ s(x_j; x_n)} αm=n{j2k1,...,j2k+1}exp s(xj;xn)exps(xj,xm)
    h m = α m x m h_m = α_mx_m hm=αmxm
  • 卷积步骤

    h j c = ∑ k [ W c ∗ h j − k − 1 2 , . . . , j − k + 1 2 + b c ] h^c_j = \sum_k[W^c ∗ h_{j-\frac{k-1}{2},...,j-\frac{k+1}{2}}+b_c] hjc=k[Wchj2k1,...,j2k+1+bc]

    典型的卷积操作,只不过是最后sum pooling layer

BiGRU_CRF with global Attention

跟BiLSTM+CRF没有什么区别,主要是加了一个中间加了一个global attention

与上面的local attention类似,只不过范围不再是cnn的windows size,而是针对

整个序列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/961244
推荐阅读
相关标签
  

闽ICP备14008679号