目录
一、Transformer概述
二、输入和输出
三、Encoder
四、Decoder
五、正则化处理
六、对于结构的改进?
七、AT vs NAT
八、Cross-attention 一、Transformer概述 Transformer模型发表于2017年Google团队的Attention is All you need这篇论文,…
回顾以下注意力机制:
自注意力机制
Self-Attention的关键点 在于 K ≈ \approx ≈V ≈ \approx ≈Q 来源于同一个X,三者是同源的,通过 W Q W_Q WQ, W K W_K WK, W V W_V WV做了一层线性变换。 接下来步骤和注意力机制一模一样。 …
一、一个简单的示例 请看下面的例句:A dog ate the food because it was hungry(一只狗吃了食物,因为它很饿) 例句中的代词it(它)可以指代dog(狗)或者food(食物)。当读这段文字的时候,我们自然而然地认为it指代的是dog,而不是food。但是当计算机模型在面对这两种选…