方差公式
得到注意力之后会进行参差连接和归一化,补充归一化公式
gamma和beta分别代表缩放因数、偏移;
一般还会在标准差中增加额外的常数varepsilon防止分母为0:
其中,方差公式:
总体方差/样本方差
假设在Transformer中,经过自注意力后得到:
注意力输出: [1.2, 3.4, -0.5, 2.1] # 4维
残差连接后: [2.2, 4.4, 0.5, 3.1] # 加上原始输入应用层归一化:
计算均值:
(2.2+4.4+0.5+3.1)/4 = 10.2/4 = 2.55计算标准差:
sqrt([(2.2-2.55)²+(4.4-2.55)²+(0.5-2.55)²+(3.1-2.55)²]/4) ≈ 1.52标准化:
[(2.2-2.55)/1.52, (4.4-2.55)/1.52, ...] ≈ [-0.23, 1.22, -1.35, 0.36]应用γ和β:假设
γ=[1,1,1,1], β=[0,0,0,0](初始值)
→ 输出[-0.23, 1.22, -1.35, 0.36]