下一代語言模型的發展:結合專家選擇路由的混合專家模型

自然語言處理領域近年來因龐大且精密的深度學習模型的發展而有顯著進展,其中基於 Transformer 的語言模型最受歡迎。這些模型能夠捕捉複雜的語言模式並在不同的上下文中進行泛化,使它們適用於各種自然語言處理任務。然而,這些模型不斷增長的大小和計算要求在訓練效率、記憶體佔用和部署成本方面帶來了重大挑戰。

為了應對這些挑戰,提出了運用稀疏激活門的專家混合模型 (sparsely activated MoE) 的模型,可以顯著降低大型語言模型的計算成本。MoE 模型將語言模型分解為更小、更專注於輸入數據不同方面的子模型或「專家」,從而實現更有效的計算和資源分配。

混合專家模型

混合專家模型 (MoE) 是一種在自然語言處理中使用的技術,它將模型分為稱為專家的專門子模型,並僅對每個輸入標記激活一個或少量的專家。根據如何將標記對應到專家,MoE 可以是稀疏或密集的,稀疏 MoE 僅在路由每個標記時選擇少量的專家,與稠密 MoE 相比減少了計算成本。最近的一些作品通過 k-means 聚類、線性分配或哈希實現了稀疏路由,Google 也宣布了 GLaM 和 V-MoE,這兩者通過使用帶有 top-k 標記路由的稀疏門控 MoE,在自然語言處理和計算機視覺方面推進了技術進展,展示了利用稀疏激活門的 MoE 層實現更好的性能擴展。

標記選擇路由。路由算法選擇每個標記中具有最高近似分數的前 1 或前 2 位專家。近似分數可以與模型參數一起進行訓練。

然而,以往的稀疏門控網絡為了防止太多的標記路由到單個專家而引入了額外的輔助損失,但效果有限。因此,標記選擇路由需要額外超額配置專家容量,才能避免緩衝區溢出時丟失標記。此外,大多數先前的工作使用top-k函數為每個標記分配固定數量的專家,而不考慮不同標記的相對重要性,這可能導致負載不平衡。所提出的方法建議應根據標記的重要性或難度,將不同的標記分配給不同數量的專家。

專家選擇路由

研究人員提出了一種稱為專家選擇 (EC) 路由的新型混合專家模型 (MoE) 方法,解決了以前稀疏門控網絡中負載不平衡和專家容量超額配置的問題。在 EC 路由中,將預定緩衝區容量的專家分配給前k個標記,而不是讓標記選擇前k個專家,從而實現了負載均衡,並允許每個標記使用不同數量的專家。EC 路由在訓練效率和下游性能方面取得了顯著的增益,在 8B/64E 模型中,與 Switch Transformer、GShard 和 GLaM 中的 top-1 和 top-2 門控對應方法相比,訓練收斂速度提高了 2 倍以上。

專家選擇路由。具有預定緩衝區容量的專家被分配給前 k 個標記,從而保證負載均衡。每個標記可以由不同數量的專家接收。

為了學習標記到專家的近似值,該方法生成了一個標記到專家得分矩陣,該矩陣顯示了將標記路由到特定專家的可能性。對於每個專家,沿著標記維度應用一個 top-k 函數以選擇最相關的標記,並根據所生成的標記索引應用一個排列函數,從而創建具有額外專家維度的隱藏值。數據被分配到多個專家中,以便所有專家可以在子集標記上同時執行相同的計算核心。通過消除由於負載不平衡而需要超額配置專家容量的需求,EC 路由相比於 GLaM 可以顯著減少訓練和推斷步驟的時間約 20%。總體而言,EC 路由實現了比以前的稀疏門控模型更好的性能擴展和訓練收斂。

模型架構和評估

專家選擇路由的模型設計基於運用稀疏激活門的混合專家模型 (MoE) 技術。該方法利用 Transformer 架構,將每個 Transformer 層的前饋組件替換為 MoE 層,MoE 層由一組稱為「專家」的獨立前饋網絡組成。每個 MoE 層使用帶有 softmax 激活函數的門控函數來對專家進行建模,並使用沿著標記維度的 top-k 函數激活最佳的專家子集。

為了提高模型性能和訓練效率,所提出的方法在正常的 Transformer 層和 MoE 層之間交替使用,使用每層相對位置偏差替換了標準的位置嵌入,並使用門控線性單元替換了第一個線性投影和激活函數。在訓練期間,每個 MoE 層中的可學習門控網絡使用沿著標記維度的 top-k 函數來激活每個標記的最佳專家子集。為了緩解跳過標記的負面影響,一些共享組件在 MoE 層之間被強制連接。

儘管 MoE 層具有更多的參數,但對於任何特定的標記,僅激活有限的專家子集,因此每個標記的激活模型大小與密集層相當,使得該方法高效。所提出的方法已與 Switch Transformer 和 GShard 等以前的作品進行了比較,表明它實現了更好的性能擴展和訓練效率。

訓練收斂的評估結果:與 GShard 和 GLaM 中使用的 top-2 門控相比,EC 路由在 8B/64E 規模下實現了 2 倍的更快收斂(左圖)。EC 訓練的困惑度與專家數量的擴展更好地匹配(右圖)。

本文是在 AI 的協助下撰寫,並參考以下來源:

https://blog.research.google/2022/11/mixture-of-experts-with-expert-choice.html

https://arxiv.org/abs/2202.09368

https://arxiv.org/abs/2101.03961

https://arxiv.org/abs/2305.14705

在此感謝 InnoHK、香港特別行政區政府及人工智能金融科技實驗室對本文的支援。
(AIFT 竭力但不能保證內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。 )

分享此內容

閱讀更多

地址

香港沙田香港科學園科技大道西 19 號
11樓 1101-1102 及 1121-1123 室

產品及解決方案

人才

工作機會

關於我們

地址

版權所有 © 2024 人工智能金融科技實驗室有限公司