模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了-人工智能-PHP中文网

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

王林

发布： 2024-06-08 21:21:29

原创

464 人浏览过

TinyLLaVA+项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智能医疗、自然语言处理与知识发现、多模态等研究领域。北京航空团队长期致力于深度学习、多模态、计算机视觉等研究领域。 TinyLLaVA+项目的目标是开发一种小型跨语言智能助手，具备语言理解、问答、对话等多模态能力。项目团队将充分发挥各自的优势，共同攻克技术难题，实现智能助手的设计与开发。这将为智能医疗、自然语言处理与知识发现、多模态等研究领域带来新的突破。同时，清华大学 MSIIP 实验室长期致力于智能

近日，清华和北航联合推出了 TinyLLaVA Factory, 一款支持定制、训练、评估多模态大模型的代码库，代码和模型全部开源。该代码库以软件工程的工厂模式作为设计理念，模块化地重构了 LLaVA 代码库，注重代码的可读性、功能的扩展性、和实验效果的可复现性。方便研究者和实践家们更容易地探索多模态大模型的训练和设计空间。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

Github 项目：https://github.com/TinyLLaVA/TinyLLaVA_Factory
论文地址：https://arxiv.org/abs/2405.11788
Hugging Face 模型地址：https://huggingface.co/tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B or https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP
机器之心 SOTA 模型地址：https://sota.jiqizhixin.com/project/tinyllava

LLaVA是一个多模态社区的优质开源项目，备受研究者和开发者的青睐。新入坑多模态大模型的初学者们也习惯以LLaVA项目作为起点，学习和训练多模态大模型。但是LLaVA项目的代码较为晦涩难懂，一旦不慎更改错误，就可能会影响训练效果，对于新手来说，往往不敢轻易修改其中的细节，给理解和探索多模态大模型的本质细节造成了一定的困难。

近日，清华和北航联合推出 TinyLLaVA Factory，将本来的 LLaVA 代码进行模块化重构，专注于简洁的代码实现、新功能的可扩展性、以及训练结果的可复现性，让你以最小的代码量，定制并训练属于自己的多模态大模型，同时减少代码错误率！相同的模型配置、训练数据和训练策略条件下，使用 TinyLLaVA Factory 可训练出比使用 LLaVA 代码性能略胜一筹的模型。为了让用户更容易理解代码和使用模型，TinyLLaVA Factory 项目还配备了代码文档和 Demo 网站。其总体架构如下图所示：[架构图]。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

在数据预处理部分，TinyLLaVA Factory摒弃了LLaVA代码中烧脑的图片处理和Prompt处理过程，提供了标准的、可扩展的图片和文本预处理过程，清晰明了。其中，图片预处理可以自定义Processor，也可以使用一些官方视觉编码器的Processor，如CLIP ViT和SigCLIP ViT自带的Image Processor。对于文本预处理，定义了基类Template，提供了基本的、共用的函数，如添加System Message (Prompt)、Tokenize和生成标签Ground Truth的函数，用户可以通过继承基类就可以轻松扩展至不同LLM的Chat Template。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

模型部分，TinyLLaVA Factory很自然地将多模态大模型模块化成3个组件——大语言模型组件、视觉编码器组件、中间的连接器组件。每个组件由一个工厂对象控制，负责新模型的注册和替换，使用用户能够够更容易地替换其中任何一个组件，而不会牵连到其他部分。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA Factory 为每个组件提供了当前主流的模型，如下表所示。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

训练器仍然仿照 LLaVA，采取 Hugging Face 自带的 Trainer，集成了 Gradient Accumulation，Wandb 做日志记录等特性，同样支持 DeepSpeed ZeRO2/ZeRO3 并行训练。对于评估部分，TinyLLaVA Factory 提供了 SQA/GQA/TextVQA/VQAv2/POPE/MME/MM-Vet/MMMU 8 个 Benchmark 的评估。

接下来，划重点！TinyLLaVA Factory Github 项目还手把手教你定制自己的多模态大模型。只需简单地添加 1-2 个文件，就可以轻松替换 LLM 组件、视觉编码器组件、连接器组件。

拿替换 LLM 模型举例。据使用过 LLaVA 代码库的同学反应，LLaVA 代码想替换非 Llama 系列的语言模型容易出错。而 TinyLLaVA Factory 可以方便地替换语言模型，只需添加 2 个 py 文件，一个是 Chat Template 文件，一个是模型文件。替换视觉编码器时，也只需添加 1 个 py 文件，继承视觉编码器的基类即可。

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA Factory 还支持对训练策略进行定制，对使用者来说只需在配置文件中进行修改，就能在 pretraining 和 finetuning 阶段对 3 个模块组件（LLM / 视觉编码器 / 连接器）实现冻住 / 全量微调 / 部分微调 /lora 微调的任意组合。堪称小白易上手式的教程！

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

早在今年 2 月，TinyLLaVA 项目就敏锐地捕捉到了 3B 以下 LLM 在多模态大模型中的潜力，利用市面主流的小规模 LLM，训练了一系列多模态大模型，参数量在 0.89B-3.1B。实验结果表明经过高质量的数据选择和更加细致的训练策略，利用小规模 LLM 同样可以实现和大模型相近甚至更加优越的任务表现。（细节详见技术报告 https://arxiv.org/abs/2402.14289）

以上是模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了的详细内容。更多信息请关注PHP中文网其他相关文章！