0%

Transformer是第一个用纯Attention搭建的模型,不仅计算速度更快,在翻译任务上获得了更好的结果,也为后续的BERT模型做了铺垫。

Self-Attention是Attention的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

为了解决由长序列到定长向量转化而造成的信息损失的问题,人们引入了Attention机制(注意力机制)。

LSTM全称为Long Short-Term Memory,即长短期记忆网络。它是一种特殊的RNN网络,该网络设计出来是为了解决长依赖问题。

静态词向量指的是一个单词用一个唯一的词向量表示并不考虑上下文的变化,它最大的缺点是无法表达多意性。为此,诞生了动态词向量。