• 方差公式

得到注意力之后会进行参差连接和归一化,补充归一化公式

xμσγ+β\frac{x-\mu}{\sigma}\gamma+\beta

gamma和beta分别代表缩放因数、偏移;

一般还会在标准差中增加额外的常数varepsilon防止分母为0:

xμ(xiμ)2n+εγ+β\frac{x-\mu}{\sqrt{\frac{\sum({x_i-\mu})^2}{n} + \varepsilon}}\gamma+\beta

其中,方差公式:

总体方差/样本方差

σ2=i=1N(xiμ)2N\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}
s2=i=1n(xixˉ)2n1s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}


假设在Transformer中,经过自注意力后得到:

注意力输出: [1.2, 3.4, -0.5, 2.1]  # 4维
残差连接后: [2.2, 4.4, 0.5, 3.1]  # 加上原始输入

应用层归一化:

  1. 计算均值:(2.2+4.4+0.5+3.1)/4 = 10.2/4 = 2.55

  2. 计算标准差:sqrt([(2.2-2.55)²+(4.4-2.55)²+(0.5-2.55)²+(3.1-2.55)²]/4) ≈ 1.52

  3. 标准化:[(2.2-2.55)/1.52, (4.4-2.55)/1.52, ...] ≈ [-0.23, 1.22, -1.35, 0.36]

  4. 应用γ和β:假设γ=[1,1,1,1], β=[0,0,0,0](初始值)
    → 输出[-0.23, 1.22, -1.35, 0.36]