下一代语言模型的发展:结合专家选择路由的混合专家模型

自然语言处理领域近年来因庞大且精密的深度学习模型的发展而有显著进展,其中基于 Transformer 的语言模型最受欢迎。这些模型能够捕捉复杂的语言模式并在不同的上下文中进行泛化,使它们适用于各种自然语言处理任务。然而,这些模型不断增长的大小和计算要求在训练效率、内存占用和部署成本方面带来了重大挑战。

为了应对这些挑战,提出了运用稀疏激活门的专家混合模型 (sparsely activated MoE) 的模型,可以显著降低大型语言模型的计算成本。 MoE 模型将语言模型分解为更小、更专注于输入数据不同方面的子模型或「专家」,从而实现更有效的计算和资源分配。

混合专家模型

混合专家模型 (MoE) 是一种在自然语言处理中使用的技术,它将模型分为称为专家的专门子模型,并仅对每个输入标记激活一个或少量的专家。根据如何将标记对应到专家,MoE 可以是稀疏或密集的,稀疏 MoE 仅在路由每个标记时选择少量的专家,与稠密 MoE 相比减少了计算成本。最近的一些作品通过k-means聚类、线性分配或哈希实现了稀疏路由,Google 也宣布了 GLaM 和 V-MoE,这两者通过使用带有 top-k 标记路由的稀疏门控 MoE,在自然语言处理和计算机视觉方面推进了技术进展,展示了利用稀疏激活门的 MoE 层实现更好的性能扩展。

标记选择路由。路由算法选择每个标记中具有最高近似分数的前 1 或前 2 位专家。近似分数可以与模型参数一起进行训练。

然而,以往的稀疏门控网络为了防止太多的标记路由到单个专家而引入了额外的辅助损失,但效果有限。因此,标记选择路由需要额外超额配置专家容量,才能避免缓冲区溢出时丢失标记。此外,大多数先前的工作使用 top-k 函数为每个标记分配固定数量的专家,而不考虑不同标记的相对重要性,这可能导致负载不平衡。所提出的方法建议应根据标记的重要性或难度,将不同的标记分配给不同数量的专家。

专家选择路由

研究人员提出了一种称为专家选择 (EC) 路由的新型混合专家模型 (MoE) 方法,解决了以前稀疏门控网络中负载不平衡和专家容量超额配置的问题。在 EC 路由中,将预定缓冲区容量的专家分配给前 k 个标记,而不是让标记选择前k个专家,从而实现了负载均衡,并允许每个标记使用不同数量的专家。 EC 路由在训练效率和下游性能方面取得了显著的增益,在 8B/64E 模型中,与 Switch Transformer、GShard 和 GLaM 中的 top-1 和 top-2 门控对应方法相比,训练收敛速度提高了 2 倍以上。

专家选择路由。具有预定缓冲区容量的专家被分配给前k个标记,从而保证负载均衡。每个标记可以由不同数量的专家接收。

为了学习标记到专家的近似值,该方法生成了一个标记到专家得分矩阵,该矩阵显示了将标记路由到特定专家的可能性。对于每个专家,沿着标记维度应用一个 top-k 函数以选择最相关的标记,并根据所生成的标记索引应用一个排列函数,从而创建具有额外专家维度的隐藏值。数据被分配到多个专家中,以便所有专家可以在子集标记上同时执行相同的计算核心。通过消除由于负载不平衡而需要超额配置专家容量的需求,EC 路由相比于 GLaM 可以显著减少训练和推断步骤的时间约 20%。总体而言,EC 路由实现了比以前的稀疏门控模型更好的性能扩展和训练收敛。

模型架构和评估

专家选择路由的模型设计基于运用稀疏激活门的混合专家模型 (MoE) 技术。该方法利用 Transformer 架构,将每个 Transformer 层的前馈组件替换为 MoE 层,MoE 层由一组称为「专家」的独立前馈网络组成。每个 MoE 层使用带有 softmax 激活函数的门控函数来对专家进行建模,并使用沿着标记维度的 top-k 函数激活最佳的专家子集。

为了提高模型性能和训练效率,所提出的方法在正常的 Transformer 层和 MoE 层之间交替使用,使用每层相对位置偏差替换了标准的位置嵌入,并使用门控线性单元替换了第一个线性投影和激活函数。在训练期间,每个 MoE 层中的可学习门控网络使用沿着标记维度的 top-k 函数来激活每个标记的最佳专家子集。为了缓解跳过标记的负面影响,一些共享组件在 MoE 层之间被强制连接。

尽管 MoE 层具有更多的参数,但对于任何特定的标记,仅激活有限的专家子集,因此每个标记的激活模型大小与密集层相当,使得该方法高效。所提出的方法已与 Switch Transformer 和 GShard 等以前的作品进行了比较,表明它实现了更好的性能扩展和训练效率。

训练收敛的评估结果:与 GShard 和 GLaM 中使用的 top-2 门控相比,EC 路由在 8B/64E 规模下实现了 2 倍的更快收敛(左图)。 EC 训练的困惑度与专家数量的扩展更好地匹配(右图)。

本文是在 AI 的协助下撰写,并参考以下来源:

https://blog.research.google/2022/11/mixture-of-experts-with-expert-choice.html

https://arxiv.org/abs/2202.09368

https://arxiv.org/abs/2101.03961

https://arxiv.org/abs/2305.14705

在此感谢 InnoHK、香港特别行政区政府及人工智能金融科技实验室对本文的支持。
(AIFT 竭力但不能保证内容之准确和可靠,亦不会承担因任何不准确或遗漏而引起的任何损失或损害。)

分享此內容

宋林琦教授于日内瓦国际发明展获得2项银奖

地址

香港沙田香港科学园科技大道西 19号
11楼 1101-1102 及 1121-1123 室

产品及解决方案

人才

工作机会

关于我们

地址

版权所有 © 2024 人工智能金融科技实验室有限公司