為什麼大型語言模型都在使用 SwiGLU 作為激活函數？-人工智慧-PHP中文網

如果你一直在關注大型語言模型的架構，你可能會在最新的模型和研究論文中看到「SwiGLU」這個詞。 SwiGLU可以說是在大語言模型中最常使用的激活函數，我們這篇文章就來對它進行詳細的介紹。 SwiGLU其實是2020年Google提出的激活函數，它結合了SWISH和GLU兩者的特徵。 SwiGLU的中文全名為“雙向門控線性單元”，它將SWISH和GLU兩種激活函數進行了優化和結合，以提高模型的非線性表達能力。 SWISH是一種非常普遍的激活函數，它在大語言模型中廣泛應用，而GLU則在自然語言處理任務中表現出色。 SwiGLU的優點在於它能夠同時獲得SWISH的平滑特性和GLU的門控特性，從而在模型的非線性表達上更加

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

##我們一個一個來介紹：

Swish

#Swish是非線性激活函數，定義如下:

Swish(x) = x*sigmoid(ßx)

登入後複製

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

其中，ß 為可學習參數。 Swish 可以比ReLU活化函數更好，因為它給予了更平滑的轉換，這可以帶來更好的最佳化。

Gated Linear Unit

GLU（Gated Linear Unit）定義為兩個線性變換的分量積，其中一個線性變換由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

登入後複製

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

GLU模組可以有效地捕捉序列中的遠端依賴關係，同時避免了LSTM和GRU等其他閘控機制相關的一些梯度消失問題。

SwiGLU

我們已經說過SwiGLU是兩者的結合。它是一個GLU，但不是將sigmoid作為激活函數，而是使用ß=1的swish，因此我們最終得到以下公式：

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

登入後複製

我們用SwiGLU函數建構一個前饋網路

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

登入後複製

Pytorch的簡單實作

##如果上面的數學原理看著比較麻煩枯燥難懂，我們下面直接使用程式碼解釋。

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -> None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

登入後複製

我們程式碼使用的F.silu函數與ß=1時的swish相同的，所以就直接拿來使用了。

程式碼可以看到，我們的激活函數中也有3個權重是可以訓練的，這就是來自於GLU公式裡的參數。