transformer

seq2seq主要有下面两个不足：

long—term dependency 会出现梯度消失或者爆炸
只能串行时序的模型，后面的运算必须依赖于前面的运算
我们知道同一个单词可能在不同的语境中可能有不同的意思也就是需要不同的向量表达，这个表达依赖于上下文的意思，其他单词也影响着这个单词的意思，
transformer就改进了这块的不足。

transformer的优点

RNN会将它已经处理过的前面的所有单词/向量的表示与它正在处理的当前单词/向量结合起来。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。

Encoder

encoder 主要有两部分部分，一个self-attention另一个就是全连接网络，self-attention进行不同单词之间信息的交互，具体下面来讲，而全连接网络就是对每个单词进行的转换，也就是乘上一个矩阵再加上偏置，然后再加上激活函数。
所以encoder主要再self-attention
首先输入就是每个单词的embedding，比如可以是glove训练出来的，然后有三个参数矩阵， $W^{o},W^{k},W^{v}$ ,这是共享的参数矩阵，然后输入向量分别与三个矩阵相乘，得到三个向量， $q1,k1,v1$ ,这里的向量是一个比原始embedding向量更加低维的表达 $q1 \cdot k1,q1 \cdot k2,q1 \cdot k3...$ ,这就是两个单词的attention，比如其中两个值是112、96，如果我们直接用和的归一化 $\frac{112}{112+96}$ , $\frac{96}{112+96}$ 则这两个值会比较接近，梯度更稳定，如果直接送到softmax， $\frac{e^{112}}{e^{112}+e^{96}}$ , $\frac{e^{96}}{e^{112}+e^{96}}$ ,这两个值就会分别接近0和1了，没有区分度，所以这里我们对他除以一个 $\sqrt{d}$ , $d$ 就是 $q$ 的维度（论文里是8，也就是64维度的求根值）再进行softmax，然后对每个atteention值(这些值也可以当作是一个score向量)分别与对应的 $v_{i}$ 相乘得到 $z1$ , $z1$ ,具体可见下图，

这就相当于考虑了整个句子了，这个整体就是一层的encoder block.

positional encoding

主要为了体现距离位置的信息，encoding向量之间点积越大代表距离越近

矩阵化操作

首先是矩阵化求 $q,k,v$ 看下面图很容易理解

每个attention我们是通过 $q1 \cdot k1,q1 \cdot k2,q1 \cdot k3...$ ，我们就可以个把 $k1,k2..$ 堆积起来到一个矩阵和 $q1$ 进行相乘得到attention向量

可以再进一步矩阵化，我们把 $q1,q2...$ 也堆积起来到一个矩阵 $q$

然后得到了attention score矩阵，每一个值都是两两个单词得到的attention值，除以 $\sqrt{d}$ ，再对每一列求softmax。
下面是对第一个单词的score向量分别与 $v1,v2,v3...$ 相乘得到 $z1$ (图里是 $b1$ ),这里把 $v$ 堆积起来，最终得到整个self-attention layer输出O矩阵

总结起来就是：