赞
踩
有了Transformer框架后RNN完全可以废弃,这个观点荒谬至极。
举一个例子:
除了个别探索,所有seq2seq的decoder都是一种rnn结构,不管是基于cnn的还是transformer的。说实话,我甚至觉得将decoder部分直接换成lstm等结构效果会更好。
此外,大家都说transformer快而rnn慢,君不见transformer的效率是O(n^2)而rnn和cnn都是O(n),对于真正长的序列,transformer不管在速度上还是显存上都是瓶颈。
还有,大家觉得transformer的成功,是因为有bert这样的预训练模型可用,如果没有呢?随便给你一个(时间)序列数据集,你真有信心认为基于attention的模型比随便来两层lstm要好?
我们首先区分一个概念:广义Transformer和狭义Transformer,狭义Transformer指Attention is all you need那个结构,包含一个encoder一个decoder;广义Transformer指self-attention机制的各种应用。下面是我个人一些理解,感觉可能有不对或者不完整的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。