AI圈頭條!谷歌Transformer開山論文驚天「翻車」
站長之家(ChinaZ.com)5月10日 消息:AI圈大頭條!谷歌大腦的NLP奠基之作、提出Transformer架構的開山鼻祖級論文 《Attention Is All Your Need》竟然出現圖與代碼不一致的問題。
今天,谷歌的開創性論文《Attention Is All Your Need》中變壓器架構的原始圖表被發現是不正確的,LayerNorm處于錯誤的位置。然而,一篇新論文表明,將Pre-LN和Post-LN結合起來可以解決梯度爆炸和消失的問題。
論文地址:https://arxiv.org/abs/1706.03762
代碼地址:
https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e
據悉,Transformer架構是人工智能的基石,自2017年發表以來,該論文已被引用超過7萬多次。在圖表中發現錯誤引發了對該領域其他開創性論文準確性的質疑。
圖中的錯誤可能導致轉換器體系結構的不正確實現,這可能會影響使用它構建的模型的性能。
關于使用Pre-LN還是Post-LN的討論正在進行中,新論文中提出的兩種方法的結合可能會導致人工智能模型開發的進一步發展。