知识蒸馏:兼顾隐私和性能之道

面对近年来的大语言模型(LLM,Large Language Model)应用风潮,许多企业已开始将领域数据与大模型结合,并取得了一定的成效。谷歌(Google)和必应(Bing)已利用大模型来提升搜索引擎推荐,提升用户搜索体验。Bloomberg也利用金融领域数据训练出BloombergGPT 1 为金融领域提供生成式AI辅助。尽管大语言模型为企业带来了新机遇,但高部署成本 2 和跨平台数据泄露风险 3 使得更多企业对大语言模型的应用持审慎态度。如何以较小成本实现大语言模型的本地部署并保护隐私,成为许多企业的重要选择。是否有相应的技术能够满足这一需求呢?知识蒸馏作为一种模型压缩技术,旨在降低模型的计算存储成本并保护数据隐私,能够满足企业对大语言模型本地化部署的要求。接下来,本文将结合大语言模型为您详细介绍这一技术。


1. BloombergGPT, https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/

2. 36 Kr:企业给大模型买单,孰“轻”孰“重”?https://36kr.com/p/2308514429283584

3. 搜狐新闻:意大利暂时禁用ChatGPT,AI大语言模型背后数据泄露的“罪与罚” https://www.sohu.com/a/662054125_121255906

知识蒸馏:如何蒸馏?蒸馏什么?

计算机学术界很早关注到模型为了提升效果不断增大模型规模(模型数量和模型参数量)给模型本身的计算和存储带来的挑战。面对这一挑战,2015年人工智能之父之一的Hintonti提出知识蒸馏[1]这一概念。蒸馏在化学中是将混合物液体分离的技术,需要利用物质的沸点选取对应的蒸馏温度(如图1所示)。蒸馏前的液体总量大于或等于蒸馏后的液体总量。借助这一化学概念,我们可以形象地理解知识蒸馏。在知识蒸馏中,容器被比喻为模型,火焰加热的容器和最终冷却的容器通常被称为教师模型和学生模型,而其中的蒸馏液体则代表着知识,模型则是知识的传递者(如图2所示)。知识蒸馏过程中,不同的「温度用来蒸馏不同的「知识」。此外,知识蒸馏的过程也类似于老师将自己的知识浓缩并传授给学生的教学过程。因此,我们通常将蒸馏前的模型称为教师模型(Teacher Model),将蒸馏后的模型称为学生模型(Student Model)(如图2所示)。

图1:化学蒸馏过程示例

那么在实际应用中,知识蒸馏又如何蒸馏,蒸馏什么呢?以大语言模型为例,知识蒸馏通常通过将教师模型(大语言模型)的中间状态作为知识传输给学生模型(深度神经网络模型)来进行蒸馏。在以大语言模型为例的情况下,中间状态是模型对实际知识(如自然语言)的蒸馏,即将实际知识转化为向量表示。学习过程是学生模型利用教师模型的中间状态进行模型训练,以实现知识的蒸馏(中间状态)和传递(学生模型训练)。

综上所述,知识蒸馏通过将教师模型的中间状态作为知识传输给学生模型,进行模型训练和知识蒸馏。在这个过程中,原始数据仅对教师模型可见,中间状态无法直接解析为实际知识,实现了隐私保护的目的。同时,学生模型在达到与教师模型类似效果(性能均衡)的情况下,具有较小的模型规模(一般可以实现10倍以上压缩),实现了模型的压缩效果。

图2:知识蒸馏过程示例

知识蒸馏:金融企业在数据隐私保护下的协作

香港中国金融协会 4 之前举办了关于在金融领域应用人工智能大语言模型的专题活动,吸引了许多金融企业对大语言模型的兴趣。尽管OpenAI、Bloomberg等公司提供了大语言模型的API供其他企业使用,但API本身需要进行数据传输,这增加了金融企业对用户数据隐私的担忧。在实际应用中,金融企业更倾向于本地部署具有隐私保护特性的大语言模型。前文我们已经论述了知识蒸馏在模型压缩和隐私保护方面的特点。那么在大语言模型时代,金融企业如何利用这一技术实现隐私保护下的本地部署呢?

一种方案是拥有大语言模型的金融企业直接进行知识蒸馏,将蒸馏后的学生模型提供给其他金融企业。这种方案的优点是可以直接获得模型,但缺点是蒸馏后的模型难以进行调整。这种蒸馏方式适用于服务或业务相似的金融企业。

另一种方案是拥有大语言模型的金融企业将知识(中间状态)直接提供给其他金融企业,其他金融企业再进行本地蒸馏模型训练。这种方案的优点是可以方便地进行蒸馏模型的迭代,但缺点是需要一定的模型训练经验。这种蒸馏方式更适用于金融企业之间的个性化合作。

除了上述两种简单方案,拥有大语言模型的金融企业还可以根据业务需求提供一对多的蒸馏服务。此外,已经拥有蒸馏模型的金融企业也可以根据业务需要对蒸馏模型进行二次开发。在实际应用中,知识蒸馏通常可以将模型的大小压缩十倍以上,并保持相似的性能水平[2]


4. https://www.hcfa.org.hk/event/?_do=event_show&activity_id=32195

未来的挑战和机遇

虽然在前文中提到了知识蒸馏技术的优点和其在大语言模型时代的应用潜力,但同时也不能忽略知识蒸馏本身的一些局限性。首先,知识蒸馏过程中会损失一部分模型性能(现有研究已经证明这种损失较小[3])。此外,知识蒸馏需要一定的时间、算力支持和深度模型训练经验(要求远低于教师模型)。因此,使用知识蒸馏的用户需要综合考虑其特点后再进行使用。

然而,考虑到大语言模型技术的不断发展,带来的性能提升和模型规模的增加,知识蒸馏无疑为资金和资源有限的中小企业提供了一种可行的解决方案,能够在平衡性能和保护用户数据隐私的考虑下进行应用。可以预见,未来对知识蒸馏的进一步开发将促进更多更好的深度学习模型在企业中的实际应用,提升企业的服务水平和用户的体验。

参考文献:

[1] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. “Distilling the knowledge in a neural network.” arXiv preprint arXiv:1503.02531 (2015).

[2] Gu, Yuxian, et al. “Knowledge Distillation of Large Language Models.” arXiv preprint arXiv:2306.08543 (2023).

[3] Gou, Jianping, et al. “Knowledge distillation: A survey.” International Journal of Computer Vision 129 (2021): 1789-1819.

在此感谢 InnoHK、香港特别行政区政府及人工智能金融科技实验室对本文的支持。
(AIFT 竭力但不能保证内容之准确和可靠,亦不会承担因任何不准确或遗漏而引起的任何损失或损害。)

分享此內容

宋林琦教授于日内瓦国际发明展获得2项银奖

地址

香港沙田香港科学园科技大道西 19号
11楼 1101-1102 及 1121-1123 室

产品及解决方案

人才

工作机会

关于我们

地址

版权所有 © 2024 人工智能金融科技实验室有限公司