LLM 미래 아키텍처: 누가 Transformer의 지배력을 흔들 것인가?-일체 포함-php.cn

대형 모델 분야에서는 늘 C 자리를 굳건히 지켜오던 트랜스포머가 최근에는 추월 경향이 있는 것 같습니다.

이번 챌린저는 언어, 오디오, 유전체학 등 다양한 양식에서 SOTA 성능을 달성한 "Mamba"라는 연구입니다. 언어 모델링 측면에서 Mamba-3B 모델은 동일한 크기의 Transformer 모델보다 성능이 뛰어나며 사전 학습 및 다운스트림 평가 모두에서 두 배 크기의 Transformer 모델과 비슷합니다.

LLM 미래 아키텍처: 누가 Transformer의 지배력을 흔들 것인가?

논문이 발표되자마자 큰 파문을 일으켰습니다. 모두들 놀라서 논문의 저자가 단 2명이라는 사실을 알게 됐습니다. 한 명은 카네기멜론대학교 머신러닝학과 조교수인 Albert Gu이고, 다른 한 명은 Together.AI의 수석과학자이자 의과대학 조교수인 Tri입니다. 프린스턴 대학의 컴퓨터 과학(신임 직위).

이 연구의 중요한 혁신은 "선택적 상태 공간 모델(Selective State Space Model)"이라는 아키텍처의 도입입니다. Transformer의 self-attention 메커니즘과 비교하면 컨텍스트 길이가 증가함에 따라 계산량이 증가합니다. 예를 들어 제곱 수준에서 컨텍스트가 32배 증가하면 계산량이 1000배 증가할 수 있으며 Mamba는 실제 데이터에서 백만 개의 토큰 길이 시퀀스로 성능을 향상시킬 수 있습니다. 5 달성 추론 처리량 향상이 두 배로 향상됩니다. 그리고 이는 선택적 SSM과 분리될 수 없습니다.

이렇게 Mamba의 뛰어난 성능을 보고 많은 연구자들이 SSM(상태공간 모델) 관련 연구에 대해 궁금해하게 되었습니다.

최근 인터뷰에서 Allen Institute for Artificial Intelligence(AI2)의 기계 학습 연구원인 Nathan Lambert는 Mamba 논문의 저자 중 한 명인 Tri Dao 및 Michael Poli와 심도 있는 대화를 나눴습니다. 역시 Together.AI 출신의 과학자입니다.

세 연구원은 주로 LLM 아키텍처의 미래에 대해 논의했습니다. 또한, 이 세 명의 연구자는 신흥 LLM 시장에서 상태 공간 모델(SSM)의 적용 전망에 대해서도 논의했습니다. Transformer의 Attention 메커니즘이 효과적인 이유, 확장 한계는 무엇인지, Mamba 및 하드웨어 최적화 소개, 향후 아키텍처 예측에 대한 토론 등 대화에 관련된 지식 포인트도 상대적으로 집중적입니다.

다음은 대화 내용입니다.

주의 메커니즘이 효과적인 이유

Nathan Lambert: 먼저 주의 메커니즘이 효과적인 이유와 주의 메커니즘의 한계가 무엇인지 논의해 보겠습니다. Transformer의 어느 정도가 주의 메커니즘을 기반으로 구축되었으며, 작동 중인 다른 메커니즘이 있으며, 이와 관련하여 어떤 문제에 직면할 수 있습니까?

Tri Dao: 예, 소위 Transformer는 현재 우리가 보는 대부분의 흥미로운 애플리케이션을 구동하는 아키텍처입니다. 당신이 말했듯이 주의 메커니즘은 핵심 계층입니다. 실제로 어텐션 메커니즘은 이미 2014년부터 2015년까지 주목을 받았고 이후 어텐션 메커니즘을 통합하고 MLP(Multi-Layer Perceptron)와 어텐션 메커니즘의 얽힌 사용에 초점을 맞춘 Transformer의 개념이 등장했습니다.

제 생각에 이 모델의 성공 요인 중 상당수는 이러한 모델이 잘 확장되는 것 같고 더 많은 매개변수와 데이터를 추가하여 모델을 더 크게 만들 수 있다는 것입니다. 이것이 성공의 비결이다. 지금은 분명해 보이지만 5년 전에는 이것이 명확한 개념이 아니었던 것 같습니다.

Transformer가 성공한 이유는 여러 가지입니다. 첫째, 대량의 데이터에서 많은 것을 배울 수 있을 만큼 일반적입니다. 둘째, 하드웨어 친화적입니다. 이전 RNN(반복 신경망)과 달리 순서 의존성이 없습니다.

그래서 GPU, TPU에서 매우 잘 실행되고 확장이 가능하며 하드웨어를 매우 효율적으로 활용합니다. 하드웨어 활용을 보다 효율적으로 만들기 위해 개인적으로도 노력하고 있습니다. 이것이 바로 성공의 비결입니다. 다재다능하고 확장성이 뛰어난 아키텍처를 만드는 것입니다. NLP에 관심이 있다면 모델을 향상시키기 위해 귀납적 편향을 추가하는 것을 고려할 수 있습니다. 개인적으로 저는 Transformer가 매우 일반적인 아키텍처이고 확장성이 뛰어나며 하드웨어 친화적이라고 생각합니다.

Nathan Lambert: 예, 예. 돌이켜보면 모든 것이 분명해 보입니다. 이제 대안을 살펴볼 때 흥미로운 차원은 컨텍스트 길이입니다. 마이클, 네 생각은 어때?

Michael Poli: 네, 몇 가지 말씀드릴 게 있어요. 우선, Transformer를 첫 번째 원리로부터 설명하려는 훌륭한 연구가 아직도 많이 있습니다. 왜 이렇게 흥미로운 회로를 배울 수 있을까요? 사람들은 다양한 변압기의 헤드 조합 등과 같은 계산 프로세스를 분석합니다.

Transformer를 코딩된 프로그래밍 언어로 이해하기 위한 몇 가지 작업이 있습니다. 하지만 Trey가 언급했듯이 Transformer에는 정말 흥미로운 디자인 선택이 있다고 생각합니다. Attention과 MLP를 서로 얽혀 사용하는 것은 매우 중요합니다. 또한 Transformer는 모델이 흡수하는 정보를 규제하기 위해 게이팅 메커니즘을 사용하고 특정 콘텐츠를 이 병렬 형식으로 사용해야 하는지 여부를 결정하는 등 RNN 및 기타 기존 NLP 모델용으로 개발된 일부 기술을 채택했기 때문에 처음에는 성공했습니다. .잊혀지는 속도. 마치 GPU에서 최적화할 수 있는 보석이 있는 것 같습니다. 쉽지는 않지만 최적화할 수는 있습니다.

Attention 계산은 2차적으로 증가합니다.

Nathan Lambert: 네, 이거 훌륭해요. 내가 말하고 싶은 더 구체적인 점은 Attention 메커니즘이 궁극적으로 입력 시퀀스의 길이에 따라 2차적으로 증가하는 계산 비용을 나타낸다는 것입니다. 길이가 L인 입력 시퀀스가 있고 길이도 L인 시퀀스를 출력하려고 한다고 가정합니다. 수학적 세부 사항을 파고들어 대부분의 라이브러리가 추론을 수행할 때 어떤 일이 발생하는지 살펴보면 텍스트의 과거 부분만 고려할 수 있는 상부 삼각 주의 행렬이 있음을 알 수 있습니다. 처리가 진행됨에 따라 첫 번째 토큰은 하나의 요소만 고려하고 이후의 각 토큰은 점차적으로 더 많은 과거 토큰을 고려하는 L 제곱 관계를 형성한다는 것을 알 수 있습니다. 우리는 방금 RNN에 대해 논의했고 일부 non-attentional 방법이 시퀀스의 모든 텍스트 기록을 보지 않고도 이를 수행할 수 있는 방법을 논의했습니다. 챗봇 GPT에 긴 메시지를 작성할 때 모든 정보가 인코딩되기를 정말로 원하시나요? 이 조밀한 주의 매트릭스 외에 어떤 다른 옵션이 있습니까?

Tri Dao: 순환 신경망의 역사는 1980년대로 거슬러 올라갑니다. 아마도 더 유명한 것 중 일부는 LSTM(Long Short-Term Memory Networks), Gated Recurrent Units(GRU)일 것입니다. NLP에서 SOTA 기술이던 2012~2016년경에는 번역, 음성인식 등에서 큰 인기를 끌었습니다.

텍스트를 순차적으로 처리합니다. 토큰을 하나씩 관찰한 다음 숨겨진 상태를 변경하고 새 토큰이 표시될 때마다 숨겨진 상태를 업데이트합니다. 어떤 의미에서는 이것이 인간의 두뇌가 정보를 처리하는 방식을 모방한다고 생각합니다. 마치 문장이나 문단을 읽는 것처럼, 두뇌에 정보를 저장하는 것처럼요. 문서를 다 읽으면 해당 문서를 다시 참조하지 않고도 해당 문서에 대한 질문에 답할 수 있습니다. 이것이 RNN이 작동하는 방식입니다. 텍스트를 처리한 다음 숨겨진 상태를 변경합니다. 이는 새 토큰을 생성하거나 문서를 분류하는 데 사용할 수 있는 표현입니다.

2016년쯤에는 이런 방법이 많이 유행했었습니다. 그러나 실험 결과가 나오면서 점차 성능이 Transformer만큼 좋지 않다는 것을 알게 되었습니다. 언급한 대로 Transformer에는 각 토큰을 이전의 모든 토큰과 비교하는 2차 확장 속성이 있어 정보를 전파하는 매우 간단한 방법을 제공합니다. 나는 이것이 Transformers와 주의 메커니즘이 그토록 잘 작동하는 이유 중 하나라고 믿습니다.

최근 일부 새로운 RNN 아키텍처가 성능이 좋은 것으로 밝혀졌으며 그중 RWKV는 이전 아키텍처 중 하나입니다. 나는 Bo Peng 연구원이 개발한 이 프로젝트를 매우 존경합니다. RNN의 강력한 잠재력을 보여주면서 독특한 방식으로 Transformer와 경쟁하는 것 같습니다.

Nathan Lambert: 네. 나도 전에 이 논문을 읽은 적이 있다. 기술 수준에서 그들은 두 개의 선형 RNN을 통해 어텐션 메커니즘의 쿼리 키-값 조회와 유사한 것을 복제하려고 시도했으며, 이는 기본적으로 특정 어텐션 확장과 같은 잠재적인 문제를 제거했습니다. 이 두 RNN은 더 나은 장기 컨텍스트 동작과 다른 구현 규칙을 가지고 있습니다. 또한 최대 140억 개의 매개변수로 모델을 훈련했습니다. 이것은 또한 맘바와 줄무늬 하이에나를 포함하여 다음에 묻고 싶은 몇 가지 질문으로 이어집니다. 우리는 하나씩 이야기할 수 있습니다.

줄무늬하이에나는 어떤 모델인가요?

Nathan Lambert: Together API에 들어가서 미스트랄과 줄무늬하이에나 비교 테스트를 해봤습니다. 결과는 줄무늬 하이에나가 좋은 언어 모델임을 보여줍니다. 명백한 실패 모드 없이 대부분의 질문에 답합니다. 마이클, 이 모델에 대해 어떻게 생각하세요?

Michael Poli: 먼저 이러한 새로운 방법들 사이에는 흥미로운 연관성이 있다는 점을 말씀드리고 싶습니다. 중심점이 있는 볼록 세트가 있으며, 선형 주의(즉, 소프트맥스가 없는 주의), 선형 RNN 및 상태 기반 모델(SSM) 간의 상관 관계가 모두 이 볼록 세트에 있습니다. 어느 정도 이 기본 모델의 수학적 공식은 동일합니다. 여기서는 인프라가 아니라 기본 모델을 의미합니다.

그러면 다양한 방향으로 개발할 수 있으며, 각 방향에는 기능 매핑 방향 및 커널 방향과 같은 고유한 장단점이 있습니다. 따라서 소프트맥스를 분리하거나 제거하면 쿼리와 키를 처리할 때 다른 접근 방식을 취할 수 있습니다. 이러한 쿼리와 키는 주의 매트릭스를 구성하는 기본 엔터티입니다. 소프트맥스를 제거한 후에는 커널과 유사한 다른 함수나 어텐션 메커니즘의 기능과 유사할 수 있는 다른 함수를 빌드할 수 있습니다.

Taylor 근사 또는 Taylor 전개와 같은 작업을 수행할 수 있습니다. 약간 다른 관점을 가지지만 매우 유사한 것을 얻습니다. 시간 차이로 전환할 수 있습니다. 이는 계산이 입력 시퀀스에 더 많이 의존하도록 RNN을 수정한다는 의미입니다. 즉, 선형 RNN의 계산은 입력 시퀀스에 의해 결정됩니다. 게이트와 같은 것을 사용할 수 있으며, 예를 들어 고정 상태 치수를 더 잘 활용할 수 있도록 추가 게이트로 내부 장력을 업데이트하는 등 많은 작업을 확인했습니다. 세 번째 방향(적어도 제 생각에는)은 컨벌루션 형식을 사용하고 여전히 결합 가능하고 병렬 학습이 가능한 다른 유형의 선형 연산자를 더 많이 사용하는 것입니다.

여기 콘텐츠에는 시불변 시스템이 포함되어 있습니다. 이러한 점을 자세히 설명할 수 있지만 추가 게이팅 메커니즘을 갖춘 컨볼루션과 루프 사이를 전환할 수 있는 모델도 있습니다. 내가 참여한 프로젝트는 방금 언급한 세 번째 유형의 건축에서 탄생했다. 우리가 실제로 하려는 것은 부동 소수점 연산당 최고의 성능을 갖춘 아키텍처를 만드는 것입니다. 우리가 반복적으로 확인한 한 가지 원칙은 다양한 레이어, 다양한 카테고리의 모듈, 심지어 전체 주의 레이어를 결합하면 개별 구성 요소보다 더 나은 것을 얻을 수 있다는 것입니다.

그래서 우리는 이러한 모델의 조합적 측면을 더 깊이 이해하려고 노력하고 있습니다. 이러한 이해는 부동 소수점 연산당 더 나은 성능을 갖춘 사전 훈련된 모델을 만드는 데 도움이 됩니다. 이 모델을 사용하여 일련의 확장 규칙을 실행했습니다. 우리는 즉시 사용할 수 있는 것을 원했고 프로세스가 훨씬 단순해졌기 때문에 하이브리드화는 우리에게 몇 가지 이점도 제공했습니다.

더 긴 컨텍스트에 맞게 미세 조정하는 경우 Transformers용으로 개발된 기술 중 일부를 채택할 수 있습니다. 놀랍게도 이러한 기술은 하이브리드에도 똑같이 잘 작동합니다. 예를 들어 선형 스케일링은 회전 임베딩 등에 사용됩니다. 자세한 내용이 궁금하시면 자세히 알아보세요. 따라서 이 프로젝트는 주로 현재 환경에서 우리가 어디까지 갈 수 있는지 알아보기 위한 실험적인 시도입니다.

Mamba란 무엇입니까

Nathan Lambert: 줄무늬 하이에나는 훈련 중에 모델 아키텍처를 변경할 수 있는 새로운 모델 접목 기술 세트를 사용하여 최적화되었습니다. 많은 일이 일어나고 있습니다. 데이터와 같은 것들은 아마도 너무 많이 이야기할 수 없을 것입니다.

데이터 해석에 관해서는 아직 잘 설명되지 않은 부분이 있는 것 같습니다. 특히 일부 긴 상황별 데이터는 더욱 그렇습니다. 모델 관점에서 이러한 데이터가 무엇을 의미하는지 설명해 주실 수 있는지 궁금합니다. 간단한 요약이라도 우리에게는 좋은 경험이 되었을 것입니다.

이 분야에는 멋진 직업이 많기 때문에 AI 분야에서 새로운 프로젝트가 많이 진행되고 있습니다. 예를 들어 어떤 사람들은 라마 모델을 분해하여 계속 훈련시키려고 합니다. . 사실 사람들이 강력한 모델을 선택하여 더 큰 모델과 동일한 성능 이점을 얻으면서도 더 작게 만들려고 하는 것은 다소 터무니없는 일입니다.

좀 벗어난 주제이긴 하지만 소셜 미디어를 팔로우하면 사람들이 '아, 결국에는 국가 무관심 모델이 승리했다'고 말하는 걸 보게 될 거라고는 예상하지 못했습니다. 제 생각에는 이 진술이 많은 흥미로운 세부 사항을 모호하게 만듭니다.

좋아, 다시 맘바로 돌아가자. 제 기억이 맞다면 Mamba 제품군에서 가장 큰 모델은 2억 8천만 개의 매개변수라고 생각하는데, GPT J와 Pythia 모델 제품군을 포함한 NLP 벤치마크에서 제공하는 벤치마크 점수가 매우 강력합니다.

Tri Dao: Mamba는 저와 Stanford University의 박사 과정 학생이었으며 현재 CMU의 조교수로 재직 중인 Albert Gu의 공동 작업이었습니다. 그래서 그것은 훌륭한 협력이었고 나는 Mamba의 성공을 그에게 빚지고 있습니다. Albert는 앞서 언급했듯이 어떤 의미에서는 선형 텐서, 선형 RNN, 컨볼루션, 신경망 및 기타 분야에 참여해 왔습니다.

저는 과거에 참여한 여러 프로젝트에서 공간과 상태 공간에 대한 연구에도 전념해 왔습니다. 제 연구 관점은 어떻게 상태 공간을 하드웨어적으로 더 효율적으로 만들고 성능을 향상시키는가입니다. 그래서 Albert Gu와 함께 작업할 수 있어서 좋았어요. Mamba와 관련된 연구 과정은 상태 공간이 실제로 NLP의 변환만큼 좋을 수 있다는 개념 증명에 가깝다고 생각합니다. 따라서 상태 공간을 제안하는 연구인 Mamba는 오디오에 더 적합할 수 있습니다. 그러나 상태 공간 모델의 경우 언어는 항상 획득하고 잘 수행하는 것이 가장 어려웠습니다.

게다가, 언어는 현재 사람들이 가장 관심을 갖는 부분이기도 합니다. 그래서 제가 하는 일은 개념 증명에 더 가깝습니다. 즉, 상태 공간 모델도 경쟁력이 있고 심지어 Transformer와도 경쟁할 수 있다는 것을 보여주고 싶습니다. . 실험에서 검증된 토큰의 수는 30억 ~ 3000억 개입니다.

절대적인 측면에서 이것은 매우 강력한 모델도 아니고 우리가 정말로 원하는 모델도 아닙니다. 내 생각에 우리가 하고 있는 일은 학문적 비교에 더 가깝습니다. 예를 들어, 동일한 수의 토큰을 훈련할 때 상태 공간 모델이 변환기보다 약간 더 나을 수 있습니다.

이것은 우리에게 특히 흥미롭고 Albert가 한동안 이것을 추진해 왔다고 생각합니다.

결과적으로 우리의 연구는 추론 속도가 더 빨라질 수 있으며 상황별 학습이 어떻게 발생하는지 이해하는 다른 방법을 갖게 될 수도 있습니다. 나는 미래의 일을 기대하고 있습니다.

Mamba 하드웨어 최적화

Nathan Lambert: 이러한 새로운 CUDA 커널을 구현하는 데 실제로 필요한 것이 무엇인지 조금 말씀해주실 수 있나요?

Tri Dao: 상태 공간 연구에 관해서는 어떤 의미에서는 순환 신경망입니다. 상태 크기는 시퀀스를 탐색하거나 처리하는 동안 정보를 저장하는 데 사용하는 버퍼입니다.

어떤 의미에서는 Transformer도 저장하는 전체 기록을 KV 캐시라고 부르곤 합니다. RNN의 경우 고정된 크기 상태를 가지며 변환기의 경우 상태 크기가 증가한다고 생각할 수 있습니다. 게다가, 우리의 직관은 상태 크기가 클수록 모델의 성능이 더 좋아진다는 것입니다.

그래서 기억해야 할 정보를 저장하려면 더 많은 공간이 필요합니다. 이전 모델(예: S4 등)은 숨겨진 상태 크기가 다소 컸으며 상태 구체화를 피하기 위해 컨볼루션 뷰를 사용했습니다.

더 많은 입력 종속성을 루프에 통합하고 싶지만 그렇게 하면 효율성을 향상시킬 수 있는 컨벌루션 뷰를 사용할 수 없게 됩니다.

그래서 우리는 효율성을 높이기 위한 다른 방법을 찾아야 했고, 그래서 우리는 GPU의 효율성을 높이는 데 집중했습니다. 아이디어는 큰 상태 크기를 원하지만 HBM과 같은 실제 GPU 메모리를 사용할 필요가 없으며 SRAM이라는 더 빠른 메모리에 큰 상태를 저장할 수 있다는 것입니다. 은닉처. CPU에 대해 더 잘 알고 계시다면 이는 일반적으로 캐시와 RAM입니다.

그래서 상태가 더 큰 경우에는 캐시에 저장해 두시면 크게 고생하지 않으실 수 있습니다.

2024 Architecture Predictions

Nathan Lambert: 현재 GPU와 TPU에 대한 가장 강력한 통찰력은 기본 레이어 위에 일부 MoE를 배치해야 하기 때문에 TPU에서는 MoE가 제대로 작동하지 않는다는 것입니다.

분산 학습에서 피드포워드 레이어는 서로 다른 TPU 노드에 분산될 수 있으며 TPU는 인접 노드를 통해 통신합니다. 따라서 TPU는 GPU에 비해 이 점에서 더 많은 영향을 받습니다. 2024년 이 공간에서는 어떤 일이 일어날까?

Tri Dao: 저는 Transform이 여전히 1조 수준의 매개변수로 확장할 수 있는 매우 강력한 아키텍처라고 생각합니다. 사람들은 하드웨어에서 가장 효율적으로 실행되는 최고 성능의 모델을 원하는 경향이 있습니다. 소프트웨어 측면에서 가장 많은 지원을 제공합니다.

최근에 상태 공간과 같은 새로운 아이디어가 있어요. Michael이 언급했듯이 이러한 구성 요소를 혼합하면 성능이 향상되는 것 같습니다. 이는 7B 크기 모델에서 입증되었으며 상태 공간 모델은 더 큰 규모의 모델에서 작동할 수 있습니다.

현재 대부분의 사람들은 Lime 아키텍처를 기반으로 한 데이터 및 인프라 구축에 주목하고 있습니다. 기존 Transformer 아키텍처는 여전히 매우 강력하고 프로덕션 환경에서 널리 지원되지만 긴 컨텍스트, 오디오, 유전체학 등. 이러한 분야의 대체 아키텍처를 연구하는 것은 매우 흥미로울 것입니다. 이러한 영역은 모델이 인간처럼 지침과 직관을 이해하는지, 정량적 방법으로 작업할 수 있는지 등 의미 있는 과학적 질문을 제기합니다.

또한 사람들이 현재 여전히 Transformer 아키텍처를 사용하고 있더라도 여전히 Transformer라고 할 수 있지만 더 많은 레이어 및 주의 메커니즘을 추가하는 등 미래에는 더 많은 새로운 아이디어와 구성 요소가 통합될 수 있습니다.

요컨대, 현재 인공지능 분야는 보수적이고 현대 건축에 초점을 맞추는 경향이 있지만, 이러한 참신한 관점과 방법은 점차 인공지능의 발전에 새로운 발전을 가져올 수 있습니다. 방향.

Michael Poli: 예, 저는 Tri Dao의 의견에 100% 동의합니다. 주의 메커니즘은 컴퓨팅 기본 요소로서 여전히 중요합니다. 효율적이고 편리한 방법으로 어텐션 메커니즘은 시퀀스 프로세서의 상태 용량을 효과적으로 늘릴 수 있습니다.

상태 차원과 시퀀스 길이 사이에는 상충 관계가 있습니다. 모델 크기가 커지면, 즉 모델이 넓어지면 더 많은 상태와 시퀀스 길이가 효과적으로 도입됩니다. 결과적으로 일부 한계 효과가 사라지고 일부 상충 관계가 변경될 수 있습니다. 특히 14B, 30B 등과 같은 초대형 모델의 경우 더욱 그렇습니다.

미래에는 건축 디자인이 더욱 흥미롭고 복잡해지며, 더 많은 혁신이 일어날 것입니다. 하이브리드 모델이든 새로운 모듈의 도입이든 더욱 흥미로운 혁신을 보게 될 것입니다.

AI에 대한 더 많은 예측

Nathan Lambert에 따르면 전문가(MoE)와 상태 공간 모델의 혼합이 최근 인기 트렌드로 떠올랐습니다.

그러나 현재 오픈 소스와 학계에서는 No 하나는 하이브리드 전문가 모델에 대한 초기 시도와 개선을 실제로 시도했습니다. 이제 모델 접목이 더욱 실용화되고 있습니다.

이러한 발전을 지켜보는 것은 매우 흥미로웠으며, 특히 업계가 모델 확장에 더 초점을 맞추고 있는 지금, 이러한 발전이 학계와 과학자에게 업계 대화에 영향을 미칠 수 있는 더 많은 방법을 제공할 수 있기를 바랍니다. 저는 오픈 소스 회사가 상업적 이점을 얻으려면 언어 모델을 구체적으로 개선해야 한다고 제안합니다.

머신러닝에서 또 주목하고 있는 것이 있나요? 반드시 상태 공간 모델에 관한 것은 아닙니다. 내년에 가장 기대되는 일은 무엇입니까?

Tri Dao: 저는 개인적으로 여전히 데이터가 가장 중요한 요소라고 생각합니다. 예를 들어 모델 성능과 높은 상관관계가 있는 일부 합성 작업을 통해 데이터가 모델 성능에 어떤 영향을 미치는지 자세히 살펴보고 있습니다. 이러한 접근 방식은 우리 논문과 연구 작업의 주요 동기이자 사례였습니다. 우리는 앞으로의 기간 동안 데이터에 중점을 둘 것입니다.

모든 아키텍처 작업이 재미있고 하드웨어에서 효율적으로 실행되도록 만드는 것도 재미있지만 결국 중요한 것은 데이터입니다. 스케일링 법칙을 이해하면 다양한 모델 아키텍처가 동일한 기울기를 갖는 경우가 많고 기울기를 변경하는 것처럼 보이는 유일한 것은 데이터 품질뿐이라는 것을 알 수 있습니다.

Michael Poli: 네, 데이터를 추가했습니다. 아키텍처 설계를 소형화하고 언어 모델링과 같은 작업과 관련된 다양한 측면을 파악하고 분석하는 등 데이터는 정말 흥미롭습니다. 우리는 이를 반복에 사용할 수 있는 것으로 패키지화하려고 하는데 이는 매우 흥미롭습니다.

저는 개인적으로 새로운 응용 분야, 특히 유전체학 작업에 대해 매우 기대하고 있지만 엔지니어링 관점에서 보면 변화가 보이고 있습니다. 현재는 여전히 언어가 가장 많은 클릭수와 가장 많은 관심을 받는 영역이지만, 시간이 지나면 그 부분도 달라질 것이라고 생각합니다.

Nathan Lambert: 네, 모두가 언어에 대해 이야기하고 있지만 이미지, 비디오는 엄청난 가치를 창출하는 것들이 될 것이라고 생각합니다. 언어의 상한선이 어디인지 모르겠습니다. 신난다. 블로그에서 텍스트를 가져와서 모델이 이를 이미지로 변환한 다음 오디오가 포함된 비디오로 변환하도록 하는 것처럼 이 모든 작업을 Python 스크립트로 수행하기 시작했습니다. 정말 쉽습니다. 해. 그래서 나는 언어를 넘어서는 것들이 흥미롭다는 당신의 말에 동의합니다.

Tri Dao: 경험상 이 모든 것을 종합해 보면 실제로 합리적으로 잘 작동하나요?

Nathan Lambert: 아직 완벽하지는 않습니다. DALL・E가 생성한 그림은 비교적 비슷하지만 제 방법은 매우 간단합니다. 텍스트를 직접 가져와서 모델이 다양한 것을 생성하도록 하는 것뿐입니다. 이미지이런 사진은 내가 더 잘할 수 있을 것 같아. 제가 아는 바로는 아마도 1년 안에 텍스트-비디오 API가 나올 것이고 그때 API로 전환할 예정인데 정말 좋은 경험이 될 것입니다.

Tri Dao: 네, 저는 이러한 발전이 많은 경제적 가치를 창출한다고 생각하며 우리는 이미 그것을 보고 있습니다. 현재 많은 기업들이 이러한 기술로 눈을 돌리고 있습니다. 내 생각엔 이것이 우리가 일하는 방식, 그리고 당신이 언급한 것처럼 우리가 일하고 노는 방식을 바꿀 것이라고 생각합니다. 매우 흥미로운 미래입니다.

원본 링크: https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?cnotallow=5d10d34c97637bebcfeba6470c0f0d9b

위 내용은 LLM 미래 아키텍처: 누가 Transformer의 지배력을 흔들 것인가?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!