변압기 기반 모델을 위한 NetEase의 오픈 소스 추론 가속화 프레임워크는 중저가 암페어 아키텍처에서 수백억 개의 모델에 대한 단일 카드 고성능 추론을 지원합니다.
Transformer 기반의 대규모 모델은 여러 분야의 다양한 작업에서 그 효율성이 입증되었습니다. 그러나 이를 산업생산에 적용하려면 추론 비용을 줄이기 위해 상당한 노력이 필요하다. 이러한 격차를 메우기 위해 우리는 EET(Easy and Efficient Transformer)라는 확장 가능한 추론 솔루션을 제안합니다. EET는 알고리즘 및 구현 수준에서 일련의 Transformer 추론 최적화를 포함하는 시스템입니다. EET는 Transformer의 계산 및 데이터 프로세스를 최적화함으로써 추론 비용을 크게 줄이고 모델의 효율성과 성능을 향상시킬 수 있습니다. 우리의 실험 결과는 EET가 모델 정확도를 잃지 않고 추론 속도와 리소스 활용도를 크게 향상시켜 산업 생산의 대규모 모델 적용을 위한 간단하고 효과적인 솔루션을 제공할 수 있음을 보여줍니다.
먼저, 긴 입력과 큰 숨겨진 크기에 맞게 고도로 최적화된 커널을 설계했습니다.
또한 대규모 모델을 배포할 때 메모리 공간을 줄이기 위해 유연한 CUDA 메모리 관리자를 제안합니다. 최첨단 Transformer 추론 라이브러리(Faster Transformer v4.0)와 비교하여 EET는 A100 GPU에서 평균 1.40~4.20x 디코딩 레이어 가속을 달성할 수 있습니다.
https://arxiv.org/abs/2104.12470
https://github.com/NetEase-FuXi/EET
위 내용은 쉽고 효율적인 Transformer(NetEase 초대형 모델 온라인 추론 엔진)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!