LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini-AI-php.cn

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的主要作者为黄毅翀。黄毅翀是哈尔滨工业大学社会计算与信息检索研究中心博士生，鹏城实验室实习生，师从秦兵教授和冯骁骋教授。研究方向包括大语言模型集成学习、多语言大模型，相关论文发表于自然语言处理顶级会议 ACL、EMNLP、COLING。

随着大语言模型展现出惊人的语言智能，各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长，如何将它们集成起来以挖掘其互补潜力，成为了 AI 研究的前沿课题。

近期，哈工大和鹏城实验室的研究人员提出了「Training-free 的异构大模型集成学习框架」DeePEn。

不同于以往方法训练外部模块来筛选、融合多个模型生成的回复，DeePEn 在解码过程中融合多个模型输出的概率分布，联合决定每一步的输出 token。相较而言，该方法不仅能快速应用于任何模型组合，还允许被集成模型访问彼此的内部表示（概率分布），实现更深层次的模型协作。

结果表明， DeePEn 在多个公开数据集上均能取得显著提升，有效扩展大模型性能边界：

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

目前论文及代码均已公开：

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

论文标题：Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration
论文地址：https://arxiv.org/abs/2404.12715
代码地址：https://github.com/OrangeInSouth/DeePEn

方法介绍

异构大模型集成的核心难点在于如何解决模型间的词表差异问题。为此，DeePEn 基于相对表示理论，构建由多个模型词表之间的共享 token 构成的统一相对表示空间。在解码阶段，DeePEn 将不同大模型输出的概率分布映射到该空间进行融合。 全程无需参数训练。

下图中展示了 DeePEn 的方法。给定 N 个模型进行集成，DeePEn 首先构建它们的转换矩阵（即相对表示矩阵），将来自多个异构绝对空间的概率分布映射到统一的相对空间中。在每个解码步骤中，所有模型进行前向计算并输出 N 个概率分布。这些分布被映射到相对空间并进行聚合。最后，聚合结果被转换回某个模型（主模型）的绝对空间，以确定下一个 token。

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

^{Rajah 1: Gambar rajah skema. Antaranya, matriks transformasi perwakilan relatif diperoleh dengan mengira perkataan yang membenamkan persamaan antara setiap token dalam perbendaharaan kata dan token anchor yang dikongsi antara model. Membina transformasi perwakilan relatif perbendaharaan kata yang dikongsi}, Dan ekstrak subset A⊆C atau gunakan semua perkataan yang dikongsi sebagai kata kunci set A=C.

Untuk setiap model, DeepPEn mengira persamaan pembenaman antara setiap token dalam perbendaharaan kata dan token anchor untuk mendapatkan matriks perwakilan relatif

. Akhir sekali, untuk mengatasi masalah degradasi perwakilan relatif bagi perkataan terpencil, pengarang kertas kerja melakukan normalisasi baris pada matriks perwakilan relatif dan melakukan operasi softmax pada setiap baris matriks untuk mendapatkan matriks perwakilan relatif ternormal

relative perwakilan gabungan

Dalam setiap langkah penyahkodan, sebaik sahaja model
Outputs taburan kebarangkalian

, mendalam menggunakan matriks perwakilan relatif normal untuk menukar

ke dalam perwakilan relatif LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

并将所有相对表示进行加权平均以获得聚合的相对表示：

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了其中是模型 LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini 的协作权重。作者尝试了两种确定协作权重值的方法：(1) DeePEn-Avg，对所有模型使用相同的权重；(2) DeePEn-Adapt，根据各个模型的验证集性能成比例地为每个模型设置权重。

相对表示逆映射

为了根据聚合的相对表示决定下一个 token，DeePEn 将其从相对空间转换回主模型（开发集上性能最好的模型）的绝对空间。为了实现这种逆转换，DeePEn 采用了基于搜索的策略，找出相对表示与聚合后的相对表示相同的绝对表示：

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

其中

表示模型

LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini

的绝对空间，

是衡量相对表示之间距离的损失函数（KL 散度）。

DeePEn 利用损失函数 LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini

相对于绝对表示

的梯度来指导搜索过程，并迭代地进行搜索。具体来说，DeePEn 将搜索的起始点 LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

初始化为主模型的原始绝对表示，并进行更新：

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

여기서 θ는 상대 앙상블 학습률이라는 하이퍼파라미터이고, T는 검색 반복 단계 수입니다.

마지막으로 업데이트된 절대 표현을 사용하여 LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

다음 단계에서 출력할 토큰을 결정합니다.

Experiment

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

^{표 1: 주요 실험 결과. 첫 번째 부분은 단일 모델의 성능, 두 번째 부분은 각 데이터 세트에 대한 상위 2개 모델의 앙상블 학습, 세 번째 부분은 상위 4개 모델의 통합입니다.}

실험을 통해 논문의 저자는 다음과 같은 결론에 도달했습니다.

(1) 대형 모델은 다양한 작업에 고유한 강점을 가지고 있습니다. 표 1에서 볼 수 있듯이 다양한 데이터 세트에서 다양한 대규모 모델의 성능에는 상당한 차이가 있습니다. 예를 들어 LLaMA2-13B는 TriviaQA 및 NQ 데이터 세트에서 가장 높은 결과를 얻었지만 다른 4개 작업에서는 상위 4위 안에 들지 못했습니다.

(2) 분배 융합은 다양한 데이터 세트에서 지속적인 개선을 달성했습니다. 표 1에서 볼 수 있듯이 DeePEn-Avg와 DeePEn-Adapt는 모든 데이터 세트에서 성능 향상을 달성했습니다. GSM8K에서는 투표와 결합하여 +11.35의 성능 향상이 달성되었습니다. 표 2: 다양한 모델 수에 따른 앙상블 학습 성능.

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

(3)

통합 모델 수가 증가하면 통합 성능이 먼저 증가하다가 감소합니다

. 저자는 모델 성능에 따라 높은 순서대로 앙상블에 모델을 추가한 후 성능 변화를 관찰합니다. 표 2에서 보는 바와 같이, 성능이 낮은 모델이 계속해서 도입되면서 적분 성능이 먼저 증가하다가 감소한다. ㅋㅋㅋ 표 3: 대규모 간의 앙상블 학습 다국어 기계 번역 데이터 세트 Flores의 모델 및 번역 전문가 모델.

(4) LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了 대형 모델과 전문가 모델을 통합하여 특정 작업의 성능을 효과적으로 개선합니다

. 저자는 또한 기계 번역 작업에 대형 모델 LLaMA2-13B와 다국어 번역 모델 NLLB를 통합했습니다. Table 3에서 보는 바와 같이 일반 대형 모델과 업무별 전문가 모델의 통합을 통해 성능을 크게 향상시킬 수 있다.

결론

대형 모델의 흐름은 끝없이 많지만 모든 작업에서 한 모델이 다른 모델을 종합적으로 압도하기는 어렵습니다. 따라서 서로 다른 모델 간의 상호 보완적인 장점을 어떻게 활용하는가가 중요한 연구 방향이 되었습니다. 이 기사에 소개된 DeePEn 프레임워크는 매개변수 훈련 없이 분포 융합에서 서로 다른 대형 모델 간의 어휘 차이 문제를 해결합니다. 수많은 실험을 통해 DeePEn이 다양한 작업, 다양한 모델 번호, 다양한 모델 아키텍처를 사용하는 앙상블 학습 설정에서 안정적인 성능 향상을 달성했음을 보여줍니다.

Atas ialah kandungan terperinci LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!