노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서-일체 포함-php.cn

2024년 세계 개발자 컨퍼런스에서 Apple은 iPhone, iPad, Mac을 포괄하는 실용적인 지능형 서비스를 제공할 수 있고 iOS 18, iPadOS 18 및 macOS Sequoia에 긴밀하게 통합되는 새로운 개인화된 지능형 시스템인 Apple Intelligence를 출시했습니다.

Cook은 Apple Intelligence가 Apple 혁신의 새로운 장이며 사용자가 제품을 사용하는 방식을 바꿀 것이라고 말한 적이 있습니다. 그는 Apple의 독특한 접근 방식이 생성 인공 지능과 사용자의 개인 정보를 결합하여 정말 유용한 지능형 서비스를 제공한다고 강조했습니다. 또한 Apple Intelligence는 정보에 대한 완전히 비공개적이고 안전한 접근을 제공하여 사용자가 자신에게 가장 중요한 일을 수행할 수 있도록 돕습니다. 이는 Apple만의 AI 경험입니다.

이제, Apple Intelligence가 공식 발표된 지 한 달이 넘었습니다. 드디어 이 기술이 스마트 기기에 구현되고, 관련 기술 문서가 드디어 공개되었습니다.

지난 하루 동안 iPhone 15 Pro 또는 iPhone 15 Pro Max를 소유한 사용자는 iOS 18.1 개발 베타를 다운로드하고 Apple Intelligence의 기능을 경험할 수 있었습니다.

47페이지 분량의 이 기술 보고서를 통해 우리는 Apple Intelligence 뒤에 숨겨진 비밀 무기에 대해 더 깊이 이해할 수 있습니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

보고서 주소: https://machinelearning.apple.com/papers/apple_intelligence_foundation_언어_models.pdf

보고서에는 두 가지 모델이 자세히 설명되어 있습니다. AFM-on-device, AFM은 다음을 의미합니다. 약 30억 개의 매개변수를 포함하는 언어 모델인 Apple Foundation Model과 특수한 작업을 효율적이고 정확하며 책임감 있게 수행할 수 있는 대규모 서버 기반 언어 모델 AFM-server(그림 1).

이 두 가지 기본 모델은 Apple의 대규모 생성 모델 제품군의 일부로 존재합니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

Architecture and training

AFM 기본 모델은 Transformer 아키텍처를 기반으로 구축된 고밀도 디코더 모델로, 다음과 같은 설계로 구성됩니다.

공유 입력/출력 임베딩 매트릭스 매개변수에 대한 메모리 사용량입니다.
사전 정규화에 RMSNorm을 사용하여 훈련 안정성을 향상하세요.
학습 안정성을 향상하기 위한 쿼리/키 정규화.
8개의 키-값 헤더가 있는 GQA(Grouped Query Attention)로 KV 캐시 메모리 공간을 줄일 수 있습니다.
SwiGLU가 활성화되어 효율성이 향상되었습니다.
RoPE 위치 임베딩에서는 긴 컨텍스트를 지원하기 위해 기본 주파수(기본 주파수)가 500k로 설정됩니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

AFM 사전 훈련 프로세스는 다양한 Apple Intelligence 기능을 지원하는 고성능 언어 모델을 개발하는 데 핵심적인 역할을 합니다. 연구팀은 고품질의 엔드 투 엔드 사용자 경험을 달성하기 위해 효율성과 데이터 품질에 중점을 둡니다.

사후 훈련 측면에서 연구팀은 일반적인 사후 훈련을 개선하면 모델이 지시를 따르고 추론하고 작성하는 능력이 더 강해지기 때문에 모든 Apple Intelligence 기능의 성능이 향상될 수 있다는 것을 발견했습니다.

이러한 모델 기능이 사용자 개인 정보 보호에 대한 Apple의 노력과 Apple의 Responsible AI 원칙에 부합하도록 하기 위해 훈련 후 작업에는 일련의 데이터 수집 및 생성, 지침 조정 및 정렬 혁신이 포함됩니다. 훈련 후 프로세스는 감독된 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)의 두 단계로 구성됩니다. 연구팀은 두 가지 새로운 사후 훈련 알고리즘을 제안했습니다. (1) 교사 위원회(iTeC)를 통한 거부 샘플링 미세 조정 알고리즘, (2) 미러 하강 정책 최적화를 통한 강화 학습 반복을 위한 RLHF 알고리즘( 미러 하강 정책 최적화) ) 및 MDLOO(Leave One-Out Advantage Estimator)를 사용하여 모델 품질을 크게 향상시킵니다.

Apple Intelligence 기능

기본 모델은 iPhone, iPad 및 Mac을 지원하는 개인 지능 시스템인 Apple Intelligence용으로 특별히 설계되었습니다.

Apple은 특정 작업에 맞게 소형 모델을 미세 조정함으로써 소형 모델의 성능을 최첨단 수준으로 향상할 수 있다는 사실을 발견했으며, 또한 런타임 교환 가능 어댑터를 기반으로 하는 아키텍처를 개발하여 다음을 가능하게 했습니다. 수십 가지 작업에 특화된 단일 기본 모델입니다. 그림 2는 높은 수준의 개요를 보여줍니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

适配器架构

苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务，研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器，基础预训练模型的原始参数保持不变，可以保留模型的一般知识，同时定制适配器以支持特定任务。

量化

为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本，需要考虑量化技术。先前的研究发现，与原始的 32/16 位浮点相比，经过 4 位量化的模型损失会很小。

为了在模型容量和推理性能之间实现最佳平衡，苹果开发了最先进的量化方法和利用准确率 - 恢复适配器（accuracy-recovery adapters）的框架。使得模型在每个权重平均小于 4 位的情况下，还能实现近乎无损的量化，并提供灵活的量化方案选择。

方法

经过后训练，模型被压缩和量化，得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此，苹果不会将量化后的模型直接用于功能开发，而是附加一组参数高效的 LoRA 适配器以进行质量恢复。

值得注意的是，训练准确率 - 恢复适配器具有样本效率，可以看作是训练基础模型的迷你版本。在适配器的预训练阶段，只需要大约 100 亿个 token（约占基础模型训练的 0.15%）即可完全恢复量化模型的能力。

由于应用程序适配器将从这些准确率 - 恢复适配器微调而来，因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小，苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。

但是，为了灵活性，苹果提供了一套具有不同秩 {8、16、32} 的准确率 - 恢复适配器供应用程序团队选择。

混合精度量化

AFM 中的每个 transformer 块和每个层都存在残差连接。因此，所有层都具有同等重要性的可能性不大。根据这一直觉，苹果通过推动某些层使用 2 位量化（默认为 4 位）来进一步减少内存使用量。平均而言，AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw)，而不会造成显著的质量损失。

评估

研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

这些基准测试表明，AFM 预训练模型具有强大的语言和推理能力，为后训练和特征微调提供了坚实的基础。

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

AFM 与开源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商业模型（GPT3.5 和 GPT-4）的比较结果如下图3所示。与其他模型相比，AFM 模型更受人类评估人员的青睐。特别是，AFM-on-device 与 Phi-3-mini 相比，尽管模型规模小了 25%，但仍获得了 47.7% 的胜率，甚至优于开源强基线 Gemma-7B 和 Mistral-7B。

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

为了衡量模型生成响应遵循提示中指令的能力，研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server，结果如下图 4 所示：

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

그림 5에서 볼 수 있듯이 AFM 서버는 Gemini-1.5-Pro-Preview-0514 및 GPT-4보다 우수한 전체 정확도를 달성합니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

Apple은 AFM을 일부 최고의 모델 및 소규모 오픈 소스 모델과 비교했습니다. 그림 6에서 볼 수 있듯이 AFM-on-device는 Gemma-7B 및 Mistral-7B에 비해 비슷하거나 더 나은 성능을 달성할 수 있습니다. AFM 서버의 성능은 DBRX-Instruct 및 GPT3.5보다 훨씬 뛰어나며 GPT4와 비슷합니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

그림 7은 수학적 벤치마크에서 훈련 후 AFM의 성능을 비교합니다. AFM-on-device는 크기가 절반 미만임에도 불구하고 Mistral-7B 및 Gemma-7B보다 훨씬 더 나은 성능을 발휘하는 것으로 나타났습니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

아래 그림은 요약 작업에서 AFM-on-device 어댑터, Phi-3-mini, Llama-3-8B 및 Gemma-7B의 품질을 평가하는 인간 평가자를 보여줍니다. 그림 8은 AFM-on-device-adapter가 일반적으로 다른 모델보다 성능이 우수하다는 것을 보여줍니다.

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서