从静态词向量到动态词向量

静态词向量指的是一个单词用一个唯一的词向量表示并不考虑上下文的变化,它最大的缺点是无法表达多意性。
为了解决一词多意的问题,使得词向量能根据上下文语境进行动态调整,于是便有了动态词向量。
典型的动态词向量模型包括elmo、GPT、Bert。

elmo、GPT、bert三者之间有什么区别?
(1)特征提取器
elmo采用LSTM(1层静态向量+2层LSTM)进行提取,GPT和bert则采用Transformer进行提取。很多任务表明Transformer特征提取能力强于LSTM。
(2)单/双向语言模型
GPT采用单向语言模型,elmo和bert采用双向语言模型。但实际上elmo是两个方向相反的单向语言模型的拼接,这种融合特征的能力比bert一体化融合特征方式弱。