0%

BERT思路的完成品,RoBERTa。

通过Transformers这个库可以很方便地使用BERT模型。

BERT是由Google开发的一种预训练语言模型。

通过一些实验对NLP领域三大主流的特征抽取器(CNN/RNN/TF)做个比较。

Transformer是第一个用纯Attention搭建的模型,不仅计算速度更快,在翻译任务上获得了更好的结果,也为后续的BERT模型做了铺垫。

Self-Attention是Attention的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

为了解决由长序列到定长向量转化而造成的信息损失的问题,人们引入了Attention机制(注意力机制)。

LSTM全称为Long Short-Term Memory,即长短期记忆网络。它是一种特殊的RNN网络,该网络设计出来是为了解决长依赖问题。