从RNN到Transformer(7) 发表于 2020-11-12 更新于 2022-06-29 Transformer是第一个用纯Attention搭建的模型,不仅计算速度更快,在翻译任务上获得了更好的结果,也为后续的BERT模型做了铺垫。 您好, 这里需要密码.