ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.-일체 포함-php.cn

2023년에는 AI 대형 모델 분야의 강자였던 트랜스포머의 위상이 도전받기 시작할 것입니다. "Mamba"라는 새로운 아키텍처가 등장했습니다. 이는 언어 모델링에서 Transformer와 비교할 수 있고 심지어 이를 능가할 수도 있는 선택적 상태 공간 모델입니다. 동시에 Mamba는 컨텍스트 길이가 증가함에 따라 선형 확장을 달성할 수 있어 백만 단어 길이의 시퀀스를 처리하고 실제 데이터를 처리할 때 추론 처리량을 5배 향상시킬 수 있습니다. 이러한 획기적인 성능 향상은 눈길을 끌며 AI 분야 발전에 새로운 가능성을 제시한다.

Mamba는 출시된 지 한 달이 넘도록 점차 영향력을 발휘하기 시작했으며 MoE-Mamba, Vision Mamba, VMamba, U-Mamba, MambaByte 등 많은 프로젝트를 탄생시켰습니다. Mamba는 Transformer의 단점을 지속적으로 극복하는 데 큰 잠재력을 보여주었습니다. 이러한 발전은 Mamba의 지속적인 발전과 발전을 보여주며 인공 지능 분야에 새로운 가능성을 가져옵니다.

그러나 이 떠오르는 "스타"는 2024 ICLR 회의에서 좌절을 겪었습니다. 최근 공개 결과에 따르면 Mamba의 논문은 여전히 보류 상태에 있습니다. 보류 결정 열에서만 해당 이름을 볼 수 있으며 지연 또는 거부 여부를 확인할 수 없습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

전반적으로 Mamba는 4명의 리뷰어로부터 각각 8/8/6/3의 평점을 받았습니다. 어떤 사람들은 그런 평가를 받고도 계속 거절당하는 것이 정말 당혹스럽다고 말했습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

이유를 이해하려면 낮은 점수를 준 리뷰어의 말을 살펴봐야 합니다.

논문 리뷰 페이지: https://openreview.net/forum?id=AL1fq05o7H

왜 "충분하지 않은"가요?

리뷰 피드백에서 "3: 거부, 충분하지 않음" 점수를 준 리뷰어는 Mamba에 대한 여러 가지 의견을 설명했습니다.

모델 디자인에 대한 생각:

Mamba의 동기는 다음과 같습니다. 주의 기반 모델의 효율성을 향상시키면서 재귀 모델의 단점을 해결합니다. 이 방향에는 S4-대각선[1], SGConv[2], MEGA[3], SPADE[4] 및 많은 효율적인 Transformer 모델(예: [5]) 등 많은 연구가 있습니다. 이러한 모든 모델은 선형에 가까운 복잡성을 달성하며 저자는 모델 성능 및 효율성 측면에서 Mamba를 이러한 작업과 비교할 필요가 있습니다. 모델 성능에 관해서는 몇 가지 간단한 실험(예: Wikitext-103의 언어 모델링)이면 충분합니다.
많은 주의 기반 Transformer 모델은 길이 일반화 능력을 보여줍니다. 즉, 모델은 더 짧은 시퀀스 길이에서 훈련되고 더 긴 시퀀스 길이에서 테스트될 수 있습니다. 예로는 상대 위치 인코딩(T5)과 Alibi[6]가 있습니다. SSM은 일반적으로 연속형이므로 Mamba에는 이러한 길이 일반화 기능이 있습니까?

실험에 대한 생각:

저자는 더 강력한 기준으로 비교해야 합니다. 저자는 H3가 모델 아키텍처의 동기로 사용되었다고 밝혔지만 실험에서는 H3와 비교하지 않았습니다. [7]의 표 4에 따르면 Pile 데이터 세트에서 H3의 ppl은 각각 8.8(1.25M), 7.1(3.55M) 및 6.0(1.3B)으로 Mamba보다 훨씬 우수합니다. 저자는 H3과의 비교를 보여줄 필요가 있습니다.
사전 훈련된 모델의 경우 저자는 영표본 추론 결과만 보여줍니다. 이 설정은 다소 제한적이며 결과는 Mamba의 효율성을 잘 뒷받침하지 않습니다. 입력 시퀀스가 자연적으로 매우 긴(예: arXiv 데이터 세트의 평균 시퀀스 길이가 8k보다 큰 경우) 문서 요약과 같은 긴 시퀀스에 대해 저자가 더 많은 실험을 수행할 것을 권장합니다.
저자는 그의 주요 공헌 중 하나가 긴 시퀀스 모델링이라고 주장합니다. 저자는 기본적으로 긴 서열 이해를 위한 표준 벤치마크인 LRA(Long Range Arena)에 대한 더 많은 기준선과 비교해야 합니다.
메모리 벤치마크가 누락되었습니다. 섹션 4.5의 제목은 "속도 및 메모리 벤치마크"이지만 속도 비교만 제시됩니다. 또한 작성자는 그림 8의 왼쪽에 모델 레이어, 모델 크기, 컨볼루션 세부 사항 등과 같은 보다 자세한 설정을 제공해야 합니다. 시퀀스 길이가 매우 길 때 FlashAttention이 가장 느린 이유에 대해 저자가 직관을 제공할 수 있습니까(왼쪽 그림 8)?

또한 다른 리뷰어는 Mamba의 단점도 지적했습니다. 이 모델은 여전히 Transformers처럼 훈련 중에 보조 메모리를 요구합니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

저자: 수정되었으니 검토해주세요

모든 심사자의 의견을 종합한 후, 저자팀도 논문의 내용을 수정 및 개선하고 새로운 실험 결과와 분석을 추가했습니다.

평가 결과 추가 H3 모델

저자는 매개변수 크기가 125M~2.7B인 사전 학습된 H3 모델을 다운로드하고 일련의 평가를 수행했습니다. Mamba는 모든 언어 평가에서 훨씬 더 좋습니다. 이러한 H3 모델은 2차 주의를 사용하는 하이브리드 모델인 반면, 선형 시간 Mamba 레이어만 사용하는 저자의 순수 모델은 모든 지표에서 훨씬 더 좋습니다.

사전 훈련된 H3 모델과의 평가 비교는 다음과 같습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

아래 그림과 같이 완전히 훈련된 모델을 더 큰 모델 크기로 확장

, 동일한 수의 토큰(300B)으로 훈련된 3B 오픈 소스 모델과 비교하면 모든 평가 결과에서 Mamba가 우수합니다. 이는 7B 규모 모델과도 비교할 수 있습니다. Mamba(2.8B)를 OPT, Pythia 및 RWKV(7B)와 비교할 때 Mamba는 모든 벤치마크 점수에서 최고의 평균 점수와 최고/두 번째 최고를 달성합니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

훈련 길이 이상의 길이 외삽 결과를 보여줌

저자는 사전 훈련된 3B 파라메트릭 언어 모델의 길이 외삽을 평가하는 그림을 첨부했습니다:

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

그래프는 포지션당 평균 손실(로그 가독성)을 나타냅니다. 첫 번째 토큰의 혼란은 컨텍스트가 없기 때문에 높지만 Mamba와 기본 Transformer(Pythia)의 혼란은 훈련 컨텍스트 길이(2048) 이전에 증가합니다. 흥미롭게도 Mamba의 해결 가능성은 훈련 컨텍스트를 넘어 최대 약 3000까지 크게 향상됩니다.

저자는 이 글에서 길이 외삽이 모델의 직접적인 동기가 아니라는 점을 강조하지만 이를 추가 기능으로 취급합니다.

여기서 기준 모델(Pythia)은 훈련 시 길이 외삽을 고려하지 않습니다. 더 다양한 기능을 제공하는 다른 Transformer 변형(예: T5 또는 Alibi 상대 위치 인코딩)이 있을 수 있습니다.
상대 위치 인코딩을 사용하여 Pile에서 훈련된 오픈 소스 3B 모델을 찾지 못했기 때문에 이 비교를 할 수 없습니다.
Mamba는 Pythia와 마찬가지로 훈련 시 길이 외삽을 고려하지 않으므로 비교할 수 없습니다. Transformer가 길이 일반화 아이소메트릭에 대한 기능을 향상시키기 위한 많은 기술(예: 다양한 위치 임베딩)을 갖고 있는 것처럼 향후 작업에서는 유사한 기능을 위한 SSM 관련 기술을 파생시키는 것이 흥미로울 수 있습니다.

WikiText-103에 대한 새로운 결과 추가

저자는 여러 논문의 결과를 분석하여 Mamba가 다른 20개 이상의 최신 하위 2차 시퀀스 모델보다 WikiText-103에서 훨씬 더 나은 성능을 발휘한다는 것을 보여주었습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

그럼에도 불구하고 두 달이 지났지만 본 논문은 아직까지 '승인'이나 '거부'라는 명확한 결과 없이 '결정 보류' 상태에 있습니다.

상위 학회에서 거부된 논문

주요 AI 상위 학회에서는 "제출 건수의 폭발적인 문제"가 골치 아픈 문제이므로 에너지가 부족한 심사자는 필연적으로 실수를 하게 됩니다. 이로 인해 YOLO, Transformer XL, Dropout, SVM(지원 벡터 머신), 지식 증류, SIFT 및 Google 검색 엔진의 웹 페이지 순위 알고리즘 PageRank를 포함하여 역사상 많은 유명한 논문이 거부되었습니다(참조: "유명한 YOLO 및 PageRank의 영향력 있는 연구는 최고 CS 컨퍼런스에서 거부되었습니다.")

딥러닝 3대 거인 중 하나인 얀 르쿤(Yann LeCun)도 종종 거절당하는 메이저 제지 메이커이기도 합니다. 방금 그는 1887회 인용된 자신의 논문 "Deep Convolutional Networks on Graph-Structured Data"가 최고 학회에서 거부되었다고 트위터에 올렸습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

ICML 2022 기간 동안 그는 "3개의 논문을 제출했지만 3개가 거부되었습니다."

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.

따라서, 논문이 최고 학회에서 거부되었다고 해서 그것이 가치가 없다는 의미는 아닙니다. 위에서 언급한 거절된 논문들 중 많은 사람들이 다른 학회로 옮겨가는 것을 선택했고 결국 승인되었습니다. 따라서 네티즌들은 Mamba가 Chen Danqi와 다른 젊은 학자들이 설립한 COLM으로 전환할 것을 제안했습니다. COLM은 언어 모델링 연구에 전념하는 학술 장소로, 언어 모델 기술 개발에 대한 이해, 개선 및 논평에 중점을 두고 있으며 Mamba와 같은 논문에 더 나은 선택이 될 수 있습니다.

ICLR은 왜 Mamba의 논문을 받아들이지 않았나요? AI 커뮤니티가 큰 논의를 촉발시켰습니다.