대기업이 빅 AI 모델을 추구하기 위해 돈을 쓰는 것에 대한 팬과 생각-일체 포함-php.cn

이 기사는 Lei Feng.com에서 복제되었습니다. 재인쇄가 필요한 경우 Lei Feng.com 공식 웹사이트로 이동하여 승인을 신청하세요.

선풍기와 빈 비누통 이야기 다들 들어보셨나요?

세계적으로 빠르게 성장하는 한 유명 소비재 제조업체가 한때 비누 포장 생산 라인을 도입했다는 소문이 있습니다. 이 생산 라인에는 비누 포장 과정에서 결함이 있는 것으로 나타났습니다. 비누가 없는 상자. 그들은 빈 상자를 고객에게 판매할 수 없었기 때문에 빈 비누 상자를 분류하기 위한 계획을 설계하기 위해 자동화 분야의 박사후 연구원을 고용했습니다.

박사후 연구원은 즉시 기계, 자동화, 마이크로전자공학, 엑스레이 검출 및 기타 기술을 종합적으로 사용하고 90만 달러를 지출하여 12명 이상의 기술팀을 소집하여 마침내 두 가지 통합 계획을 성공적으로 개발했습니다. 감지기는 양쪽에 설치되어 있으며, 지나가는 빈 비누 상자가 감지될 때마다 로봇 손이 구동되어 빈 비누 상자를 밀어냅니다.

이는 실제 산업 문제를 해결하기 위한 기술 구현에 있어 중요한 돌파구라고 할 수 있습니다.

공교롭게도 동시에 중국 남부의 한 향 기업도 동일한 생산 라인을 구매했습니다. 이 문제를 발견한 사장은 매우 화가 나서 직원을 공장으로 불러서 "와서 이 문제를 해결할 방법을 생각해 보세요"라고 말했습니다. 190위안 고출력 선풍기를 사서 비누 포장 생산 라인 옆에 두었는데, 생산 라인이 돌아서자마자 빈 비누 상자가 나오자 마자 날아가 버렸습니다.

한 소규모 작업자가 영리한 창의력으로 이 문제를 신속하게 해결하고 업계에서 자주 언급되는 큰 목표인 비용 절감 및 효율성 향상을 달성했습니다.

업계에서 기술 혁신과 지능의 의미는 바로 이 두 가지 슬로건에 지나지 않습니다. 하나는 비용을 절감하고 다른 하나는 효율성을 높이는 것입니다. 그러나 최근 AI의 발전 과정에서 학계든 산업계든, 대기업이든 중소기업이든, 자본의 법칙을 어기는 듯한 '이상한' 현상이 나타나고 있다. 민간 기업이나 정부 지원 연구 기관은 모두 대형 모델을 "개량"하는 데 많은 돈을 지출하고 있습니다.

결과적으로 원 안에는 두 가지 목소리가 나왔습니다:

한 목소리는 대형 모델이 다양한 작업 벤치마크에서 강력한 성능과 잠재력을 보여줬으며, 이것이 앞으로 인공 지능의 발전 방향이 되어야 한다고 말했습니다. 이때 투자는 미래 시대의 큰 기회를 놓치지 않기 위한 준비이며, 훈련에 수백만 달러(또는 그 이상)를 투자할 가치가 있습니다. 즉, 대형 모델의 고지를 점유하는 것이 주된 모순이고, 고비용 투자가 부차적인 모순이다.

또 다른 목소리는 AI 기술 구현의 실제 과정에서 현재 대형 모델을 포괄적으로 선전하는 것은 소형 모델 및 기타 AI 방향의 연구 자원을 빼앗을 뿐만 아니라 높은 투자 비용으로 인해 해결하기 어렵다는 것입니다. 실제 문제는 산업 이슈 중 비용 효율성이 낮고 디지털 전환의 맥락에서 중소기업에 더 많은 혜택을 줄 수 없다는 것입니다.

즉, "경제적 가용성"과 "능력이 강한지"는 AI 알고리즘이 실질적인 문제를 해결하는 데 있어 두 가지 주요 초점을 구성합니다. 오늘날 업계는 미래에 AI가 모든 계층에 힘을 실어주는 '힘'이 될 것이라는 합의에 도달했습니다. 그렇다면 AI의 대규모 구현 관점에서 대형 모델과 소형 모델 중 어느 것이 더 낫습니까? 업계에서는 실제로 이에 대해 생각해 보았는가?

1'빅' 모델의 등장

최근 국내외 주요 기술 기업들이 AI R&D 역량을 공개할 때마다 '빅 모델'이라는 단어가 자주 등장한다.

이 대회는 해외 기술 거물들로부터 시작됩니다. 2018년 Google은 대규모 사전 훈련된 언어 모델인 BERT를 출시한 후 OpenAI가 2019년과 2020년에 GPT-2와 GPT-3를 출시했으며 Google도 뒤처지지 않았습니다. 압도적인 수의 매개변수.. 전자의 스위치 트랜스포머...

소위 모델 크기, 주요 측정 지표는 모델 매개변수의 크기입니다. 모델의 "크기"는 엄청난 수의 매개변수를 나타냅니다.

예를 들어, BERT의 매개변수 수는 2018년 처음으로 3억 개에 도달하여 최고 수준의 기계 독해 테스트 SQuAD1.1의 두 측정 항목에서 인간을 능가했으며 11개의 NLP 테스트에 도달했습니다. GLUE 벤치마크를 80.4%(절대 개선 7.6%), MultiNLI 정확도 86.7%(절대 개선 5.6%)를 달성하는 등 성능을 향상시켜 AI 알고리즘 성능 향상을 위한 매개변수 수 증가의 힘을 입증했습니다.

OpenAI는 매개변수 볼륨이 15억에 달하는 GPT-2를 연이어 출시했으며, GPT-3의 매개변수 볼륨은 처음으로 1,000억을 넘어 1,750억에 도달했습니다. 2021년 1월 구글이 출시한 스위치 트랜스포머(Switch Transformer)는 매개변수 볼륨이 1조 6천억으로 처음으로 1조 달러에 도달했다.

이러한 상황에 직면하여 국내 주요 제조업체와 정부 지원 연구 기관까지도 뒤처지지 않고 Lianda 모델에 대한 결과를 연속적으로 출시했습니다. 2021년 4월 Alibaba DAMO 아카데미는 중국어 사전 학습 언어 모델을 출시했습니다. 4월에는 매개변수 용량이 270억 개인 "PLUG", 6월에는 베이징 Zhiyuan 인공 지능 연구소가 "Enlightenment 2.0"을 출시한 "Pangu α"를 공동 출시했습니다. 1조 7500억 개의 매개변수 볼륨; 9월에 Baidu는 수백억 개의 매개변수를 갖춘 중국어-영어 이중 언어 모델 PLATO-X를 출시했습니다.

지난해 10월 알리바바 다모 아카데미에서 'M6-10T'를 출시했는데, 이는 매개변수가 10조 개에 달해 현재 중국 최대 AI 모델이다. 비록 Alibaba만큼 좋지는 않지만 Baidu는 모델의 매개변수 수를 추구하는 데 크게 뒤지지 않습니다. Pengcheng Laboratory와 공동으로 출시한 'Baidu Wenxin'은 매개변수 수가 2,600억 개로 PLATO보다 10배 더 많습니다. -엑스.

또한 Tencent는 대형 모델인 "Paida Star"를 개발했다고 밝혔으나 매개변수의 크기는 알 수 없습니다. 일반적으로 모두의 관심을 끌고 있는 주요 AI R&D 기업 외에도 국내 주요 대형 모델 R&D 플레이어로는 컴퓨팅 파워 제공업체인 인스퍼(Inspur)도 지난해 10월 매개변수 볼륨 245.7의 대형 모델 '소스 1.0'을 출시했다. 10억. 전체적으로 2021년은 중국의 '대형 모델 원년'이라고 할 수 있다.

올해까지도 대형 모델의 인기가 이어지네요. 초기에는 대형 모델이 컴퓨터 언어 분야에 집중되었으나, 현재는 점차 비전, 의사결정 분야로 확대되어 단백질 예측, 항공우주 등 주요 과학 이슈까지 포괄하고 있다. Google, Meta, Baidu 다른 주요 회사도 이에 상응하는 결과를 얻었습니다. 한동안 매개변수가 1억 미만인 AI 모델에는 음성이 없었습니다.

성능 초월이든 작업 확장이든 AI 대형 모델은 학계와 산업계에 무한한 상상력을 불러일으키며 고유한 잠재력을 입증해 왔습니다.

연구 실험에 따르면 데이터와 매개변수의 양을 늘리면 문제 해결 시 모델의 정확도가 효과적으로 향상될 수 있는 것으로 나타났습니다. Google이 2021년에 출시한 시각적 전달 모델인 Big Transfer를 예로 들면, 1,000개 카테고리의 128만 개 이미지와 18,291개 카테고리의 3억 개 이미지로 구성된 두 개의 데이터 세트를 학습에 사용하여 모델의 정확도를 77%에서 7%로 높일 수 있습니다. 79%.

Google이 올해 출시한 5,400억 개의 매개변수 단방향 언어 모델 PaLM을 살펴보세요. 이는 Google이 올해 출시한 차세대 AI 프레임워크 Pathways를 기반으로 하며, 이는 1,750억 개의 매개변수 GPT-3를 능가할 뿐만 아니라 7개의 산술 단어 문제/상식 추론 데이터 세트 중 4개가 현재 SOTA를 능가했으며(아래 표 참조), 샘플(즉, 수집된 데이터)은 8개에 불과했습니다. 사용 된.

대기업이 빅 AI 모델을 추구하기 위해 돈을 쓰는 것에 대한 팬과 생각

비전은 지각이고, 언어는 지능이다. 그러나 이 둘은 '인과 추론'의 승리에서 눈부신 발전을 이루지 못했고, 인과 추론 능력은 AI 시스템의 진화에 매우 중요하다. . 이는 다음과 같이 이해될 수 있습니다. 1+1=2를 기준으로 100+100=200을 도출하는 어린이의 단순한 능력은 기계 시스템에서는 매우 복잡합니다. 시스템에는 인과 추론에 대한 상상력이 부족하기 때문입니다. 기계가 합리적인 추론 능력/상상력조차 갖지 못한다면 공상과학 영화에 나오는 초지능 로봇을 개발하는 것과는 거리가 멀게 됩니다. 대형 모델의 등장으로 일반 인공지능(AGI)의 구현이 가능해진다.

그래서 대기업이 대형 모델을 홍보할 때 여러 작업을 동시에 해결할 수 있고 여러 작업 벤치마크에서 SOTA(현재 최고 수준)에 도달할 수 있다고 강조하는 경우가 많다는 것을 알 수 있습니다. 예를 들어 구글이 올해 출시한 5400억 매개변수 언어 모델 PaLM은 이모티콘 표현을 통해 농담을 해석하고 영화를 추측할 수 있다. .

간단히 말하면, 대형 모델에는 한 가지 특징이 있는 경우가 많습니다. 다재다능하고 다양한 모자를 착용할 수 있다는 것입니다. 이는 복잡한 시나리오의 과제를 해결하는 데 중요합니다.

"소형 모델은 매개변수 수가 적고 단일 작업으로 제한되는 반면, 대형 모델의 (장점)은 사람이 탁구를 배울 때 배우는 지식이 경기에 보조 효과를 미치는 것과 같습니다. 대형 모델 모델의 작업 간에는 일반화가 있습니다. 새로운 작업에 직면할 때 소형 모델에는 수천 또는 수만 개의 훈련 데이터가 필요할 수 있지만 대형 모델에는 하나의 훈련 데이터만 필요하거나 전혀 필요하지 않을 수도 있습니다. 모두.” West Lake University의 딥 러닝 연구소 소장인 Lan Zhenzhong은 Leifeng.com-AI Technology Review에 설명했습니다.

대화 시스템에 대한 연구를 예로 들어보세요. 대화 시스템은 크게 두 가지 범주로 나뉜다. 하나는 사용자가 작업을 할당하고 AI 시스템이 이를 자동으로 실행하는 작업 기반 대화(빠른 항공권 예매, 영화 티켓 구매 등), 다른 하나는 개방형이다. 영화 '그녀'(Her )와 같은 대사는 어떤 주제에 대해서도 인간과 소통할 수 있고, 심지어 사용자에게 정서적인 동행감을 느끼게 하는 가상의 로봇이다. 그중에서도 후자의 능력 수준이 확실히 더 높으며 연구 개발이 더 어렵습니다. 앞으로는 많은 안개가 닥치고 어떤 도전에 직면하게 될지 알 수 없습니다. 이때 대형 모델 자체는 새로운 임무에서 풍부한 "능력 패키지"와 탁월한 성능을 갖추고 있으며 전투 효율성은 분명합니다. 작은 모델보다 낫네요.

Lan Zhenzhong은 현재 학계와 업계의 AI 연구자들이 대형 모델의 많은 특성을 완전히 파악하지 못했다고 지적했습니다. 예를 들어, 이전 세대의 GPT-3부터 이번 세대의 Instruct GPT까지 질적으로 큰 도약을 이룬 것을 볼 수 있습니다. 이 모델 역시 대형 모델이지만 명령을 받아들일 때 Instruct GPT의 효과가 훨씬 좋습니다. 이것은 그들이 한 일입니다. 이것은 대형 모델을 연구할 때만 경험할 수 있습니다.

매개변수 수가 늘어나면 AI 모델의 성능은 어떻게 될까요? 이것은 심층적인 탐구가 필요한 과학적 문제이므로 대형 모델 연구에 지속적인 투자가 필요합니다.

2 이상은 멀리 있지만 현실은 매우 가깝습니다

인류가 발전하려면 항상 아무도 없는 곳을 용감하게 가는 사람들이 있어야 합니다.

그러나 현실 세계에서는 모든 사람이 별과 바다의 이상을 누릴 여유가 없습니다. 자신이 직면한 문제를 최대한 빠르고 비용 효율적으로 해결하려는 사람들이 더 많습니다. 최종 분석에서는 AI 알고리즘이 구현되기 위해서는 기술 연구개발의 입출력 비율을 고려해야 한다. 이때 대형 모델의 단점이 드러나기 시작한다.

무시할 수 없는 잔인한 사실은 대형 모델의 계산 속도가 느리고 훈련 비용이 극도로 높다는 것입니다.

일반적으로 모델의 매개변수 수가 많을수록 기계 실행 속도가 느려지고 계산 비용이 높아집니다. 해외 언론 공개에 따르면 OpenAI는 1,750억 개의 매개변수가 포함된 GPT-3 교육에 거의 500만 달러(약 3,500만 위안)를 지출했습니다. Google은 5,400억 개의 매개변수가 포함된 PaLM을 훈련할 때 6,144개의 TPU를 사용했습니다. 열정적인 네티즌의 통계에 따르면 일반 사람들이 PaLM을 훈련하는 데 드는 비용은 900만 달러에서 1,700만 달러 사이입니다. 이것은 단지 컴퓨팅 파워의 비용일 뿐입니다.

국내 주요 제조사들은 대형 모델 훈련에 소요되는 경제적 비용을 공개하지 않았지만, 기존의 전 세계적으로 공유되는 컴퓨팅 방식과 자원을 기준으로 봤을 때 컴퓨팅 비용은 크게 차이 나지 않을 것입니다. GPT-3와 PaLM 모두 수천억에 불과하지만 매개변수가 수조 이상에 달하는 대형 모델의 비용은 엄청날 것입니다. 대형 제조사가 연구개발(R&D)에 넉넉하다면 대형 모델 투자비용이 '걸림돌'이 되지는 않을 것이다. 대형 모델에 중점을 두어 약간 마술적인 것처럼 보입니다.

대형 모델의 컴퓨팅 성능에 대한 높은 요구 사항으로 인해 기업 간의 기술력 경쟁이 돈 경쟁으로 바뀌었습니다. 장기적으로 알고리즘이 소비량이 많은 상품이 되면 최첨단 AI는 소수만이 사용할 수 있게 되어 포위와 포위의 독점 상황이 발생하게 됩니다. 즉, 언젠가 일반 인공지능이 등장하더라도 모든 사용자에게 이익이 되지는 않을 것이다.

동시에 이 트랙에서는 중소기업의 혁신력이 압박을 받게 될 것입니다. 대형 모델을 구축하려면 중소기업이 대형 제조업체와 협력해 거대 기업의 어깨 위에 서거나(그러나 이는 모든 소규모 공장이 할 수 있는 것은 아니다), 막대한 투자를 하고 자금을 준비해야 한다(그러나 자본 측면에서는 추운 겨울에는 실용적이지 않습니다.)

입력을 계산한 후 출력을 계산합니다. 불행하게도 현재 대형 모델을 정제하는 회사 중 대형 모델이 얼마나 많은 경제적 이익을 창출했는지 공개한 회사는 없습니다. 그러나 이러한 대형 모델은 문제를 해결하기 위해 잇달아 구현되기 시작했다는 사실을 공개 정보를 통해 알 수 있습니다. 예를 들어 Alibaba Damo Academy는 1조 매개변수 모델 M6을 출시한 후 이미지 생성 기능이 이미 도움이 될 수 있다고 말했습니다. 자동차 디자인 분야의 자동차 디자이너 M6의 카피라이팅 생성 능력을 빌려 만든 카피라이팅은 모바일 타오바오, 알리페이, 샤오미에서도 활용됐다.

탐색 초기 단계에 있는 대형 모델의 경우 단기 수익을 강조하는 것은 너무 가혹합니다. 하지만 우리는 여전히 이 질문에 대답해야 합니다. 비즈니스 커뮤니티든 학계든, 대형 모델에 베팅할 때 미래를 지배할 수 있는 기술적 방향을 놓치지 않기 위한 것인지, 아니면 문제를 더 잘 해결할 수 있기 때문인지. 현재 문제가 있나요? 전자가 학문적 탐구의 색깔이 강한 반면, 후자는 문제 해결을 위해 AI 기술을 적용하는 업계 선구자들의 실질적인 관심사입니다.

대형 모델은 Google의 BERT 출시로 시작되었습니다. 이는 혼란스럽고 개방적인 아이디어였습니다. BERT 실험 이전에 Google Brain의 기술 팀은 알려진 실제 문제를 중심으로 모델을 개발하지 않았으며 그렇게 하지도 않았습니다. 당시 가장 많은 매개변수(3억 개)를 갖춘 이 AI 모델은 상당한 성능 향상을 가져올 수 있다고 생각합니다. 마찬가지로 OpenAI가 Google을 모방하여 GPT-2와 GPT-3를 개발했을 때 구체적인 작업이 없었지만, 성공적인 개발 후 모두가 GPT-3에 대한 작업 효과를 테스트한 결과 다양한 지표가 개선되었음을 발견했습니다. . 그냥 놀랐어요. 오늘날의 GPT-3는 플랫폼과 같으며 수천 명의 사용자가 사용하고 있습니다.

그러나 시간이 지날수록 대형 모델의 개발은 필연적으로 특정 현실적 문제를 해결하려는 원래 의도로 되돌아갑니다. 예를 들어 올해 Meta가 출시한 대형 단백질 예측 모델 ESMFold, Baidu가 출시한 대형 항공우주 모델 등이 있습니다. 요전. GPT-3와 같은 초기 대규모 모델이 주로 매개변수 수의 증가가 알고리즘 성능에 미치는 영향을 탐색하기 위한 것이며 순전히 "미지의 것을 유도하는 미지의 모델"이었다면 현재의 대규모 모델은 축소 모델 연구는 실제 문제를 해결하고 기업가적 가치를 창출한다는 보다 복잡한 명확한 목표를 반영하기 시작했습니다.

이때 대형 모델의 개발 방향은 연구자의 의지에서 사용자의 요구로 바뀌게 됩니다. 일부 아주 작은 요구사항(번호판 인식 등)에서는 대형 모델도 문제를 해결할 수 있지만, 훈련 비용이 비싸기 때문에 "큰 망치로 돼지 죽이기"와 비슷하며 성능이 반드시 뛰어난 것은 아닙니다. . 즉, 몇 군데의 정확도 향상을 수천만 달러의 비용으로 달성한다면 가격 대비 성능 비율은 극히 낮을 것입니다.

업계 관계자는 Leifeng.com-AI Technology Review에 따르면 대부분의 경우 정서 분석, 뉴스 요약 등 알려진 실제 문제를 해결하기 위한 기술을 연구합니다. 이때 실제로 특별한 소형을 설계할 수 있습니다. 연구해야 할 과제이며, 결과로 나온 "소형 모델"의 효과는 GPT-3와 같은 대형 모델의 효과보다 쉽게 더 좋습니다. 일부 특정 작업에도 대형 모델은 '사용이 불가능'하다.

그래서 AI 발전을 추진하는 과정에서 대형 모델과 소형 모델의 결합은 불가피합니다. 대형 모델에 대한 연구 개발 문턱이 매우 높기 때문에, 가시적인 미래에는 경제적으로 이용 가능하고 정밀한 공격이 가능한 소형 모델이 AI의 대규모 구현이라는 중요한 임무를 짊어지는 데 주력이 될 것입니다.

대형 모델을 연구하는 일부 과학자들조차 Leifeng.com-AI Technology Review에 대형 모델이 동시에 많은 작업을 수행할 수 있지만 "지금 일반적인 인공지능을 이야기하기에는 너무 이르다"고 분명히 밝혔습니다. 대형 모델은 궁극적인 목표를 달성하는 중요한 방법일 수 있지만, 이상은 아직 멀었고, AI가 먼저 현재 상황을 충족시켜야 합니다.

3 AI 모델은 점점 더 커져야 하나요?

실제로 AI 모델이 점점 더 커지는 현상에 대응하여 일부 학계와 업계의 연구자들은 구현상의 장점과 단점을 발견하고 적극적으로 대응책을 개발해 왔습니다.

계몽 기술이 사람들에게 사회 변화에 대해 어떤 영향을 미쳤는지 이야기하고 싶다면 반드시 언급될 중요한 것 중 하나는 기술 제품의 문턱을 낮추는 방법(기술 측면이든, 측면이든)입니다. 이 기술의 혜택을 사람들이 누릴 수 있을 때에만 그 영향력이 확대될 수 있습니다.

대형 모델로 전환할 때 핵심 모순은 어떻게 학습 속도를 향상시키고, 학습 비용을 줄이며, 새로운 아키텍처를 제안할지입니다. 컴퓨팅 리소스의 사용만 보면 대형 모델의 딜레마는 실제로 눈에 띄지 않습니다. Open Engineering Alliance MLCommons가 올해 6월 말 발표한 MLPerf 벤치마크의 최신 훈련 결과에 따르면, 올해 머신러닝 시스템의 훈련 속도는 지난해보다 거의 2배 빨라 무어의 법칙(18~24일마다 두 배씩 증가)을 깨는 것으로 나타났다. 개월).

실제로 다양한 서버의 업데이트와 반복, 클라우드 컴퓨팅과 같은 새로운 방식의 등장으로 컴퓨팅이 가속화되고 에너지 소비가 줄어들었습니다. 예를 들어, GPT-3는 불과 2년 전에 출시되었는데, 이제 자신이 개발한 OPT 모델을 기반으로 한 Meta의 계산이 2020년의 1/7로 줄었습니다. 또한, 최근 기사에 따르면 2018년 훈련을 위해 수천 개의 GPU가 필요했던 대형 모델 BERT를 이제 24시간 안에 단일 카드로 훈련할 수 있으며, 일반 실험실에서도 쉽게 훈련할 수 있는 것으로 나타났습니다.

컴퓨팅 성능 확보에 따른 병목 현상은 더 이상 존재하지 않습니다. 유일한 장애물은 구입 비용입니다.

최근 몇 년 동안 일부 연구자들은 컴퓨팅 성능에만 의존하는 것 외에도 모델의 특성과 알고리즘 자체에만 기반하여 대형 모델의 '경제적 가용성'을 달성할 수 있는 또 다른 방법을 찾기를 희망했습니다.

한 가지 방법은 데이터 중심의 "차원 축소"입니다.

최근 DeepMind의 연구("Training Compute-Optimal Large Language Models")에 따르면, 동일한 계산량으로 모델의 매개변수를 확대하는 대신 모델의 학습 데이터를 증가시키는 방식으로 탐색하고 발견했습니다. , 모델을 확대하는 것보다 더 나은 결과를 얻을 수 있습니다.

이 DeepMind 연구에서 데이터를 완전히 활용하는 700억 매개변수 모델인 Chinchilla는 다양한 다운스트림 작업 평가에서 1,750억 매개변수 GPT-3 및 2,800억 매개변수 Gopher를 능가합니다. Lan Zhenzhong은 Chinchilla가 승리할 수 있었던 이유는 훈련 중에 데이터를 확장하고 두 배로 늘린 다음 한 번만 계산했기 때문이라고 설명했습니다.

또 다른 방법은 알고리즘과 아키텍처의 혁신을 활용하여 "경량" 대형 모델을 만드는 것입니다.

Microsoft Research Asia의 전 부사장이자 현재 Lanzhou Technology의 창립자인 Zhou Ming은 이 트랙의 추종자입니다.

기업가로서 Zhou Ming의 생각은 돈을 절약하는 매우 "의무"입니다. 그는 현재 많은 대기업들이 대형 모델을 추구하고 있으며, 두 번째로 컴퓨팅 능력, 특히 클라우드 서비스의 능력을 표현하고 싶어한다고 지적했습니다. 막 탄생한 작은 회사인 Lanzhou Technology는 AI를 사용하여 가치를 창출하겠다는 꿈을 가지고 있지만 강력한 클라우드 기능이 없고 소모할 자금도 부족합니다. 그래서 Zhou Ming은 처음에 모델 아키텍처를 조정하는 방법을 생각했습니다. 그리고 지식을 정제하여 대형 모델을 고객이 사용할 수 있는 "경량 모델"로 전환합니다.

지난해 7월 출시한 경량 모델 '맹시우스'는 이 아이디어의 타당성을 입증했다. "Mencius"는 매개변수가 10억 개에 불과하지만 중국어 이해 평가 목록 CLUE에서의 성능은 매개변수 수준이 수백억, 심지어 수천억에 달하는 BERTSG 및 Pangu와 같은 대형 모델을 능가합니다(아래 표). 현장에서는 동일한 아키텍처에서 모델의 매개변수 수가 많을수록 성능이 더 좋다는 것이 공통된 의견입니다. 그러나 "맹자"의 독창성은 아키텍처의 혁신에 있습니다.

대기업이 빅 AI 모델을 추구하기 위해 돈을 쓰는 것에 대한 팬과 생각

얼마 전 학계에서는 버클리 캘리포니아 대학의 Ma Yi 교수, Shen Xiangyang, Cao Ying이 공동으로 연구를 발표했습니다. Intelligence")는 대형 모델이 점점 더 커지는 기술적 이유를 이론적으로 분석한 것입니다. 즉, 심층 신경망은 본질적으로 "개방 루프" 시스템, 즉 분류를 위한 판별 모델과 샘플링 또는 재생을 위한 모델입니다. 생성 모델의 훈련은 대부분의 경우 분리되어 있어 매개변수의 훈련이 비효율적입니다. 모델의 성능은 힙 매개변수와 힙 컴퓨팅 능력에 의존해야만 향상될 수 있습니다.

이를 위해 그들이 제안한 "개혁" 방법은 더욱 철저하며, 판별 모델과 생성 모델을 결합하여 완전한 "압축" 폐쇄 루프 시스템을 형성하여 AI 모델이 학습할 수 있도록 하는 것을 옹호합니다. 새로운 환경에서 발생할 수 있는 새로운 문제에 직면할 때 더 높고, 더 안정적이며, 더 적응력 있고 대응력이 뛰어납니다. 즉, AI 분야 연구자들이 이 경로를 따라 모델을 개발할 수 있다면 모델의 매개변수 크기가 크게 줄어들어 '작고 아름다운' 길로 돌아가고, 대형 모델이 '미지의 문제를 해결하는 능력'을 갖게 된다는 것이다. 문제'도 달성할 수 있습니다.

경제적 가용성 확보 측면에서는 AutoML이나 AutoAI를 활용해 모델 훈련의 어려움을 해결하고, AI 알고리즘의 연구 문턱을 낮추며, 알고리즘 엔지니어나 비AI 실무자가 유연하게 커스터마이징할 수 있도록 해야 한다는 목소리도 있다. 필요에 따라 단일 기능 모델을 만들기 위해 수많은 작은 모델이 형성되고 단 하나의 불꽃이 초원의 불을 일으킬 수 있습니다.

이 목소리는 "수요"의 관점에서 나온 것이며 비공개로 건물을 짓는 것에 반대합니다.

예를 들어 시각적 알고리즘은 식별, 감지 및 위치 파악에 사용됩니다. 그중 연기 및 불꽃 식별은 알고리즘에 대한 요구 사항이 다르기 때문에 수요자가 연기 및 불꽃 식별을 신속하게 생성할 수 있도록 플랫폼이나 도구를 제공합니다. 불꽃놀이를 식별하는 시각적 알고리즘은 정확도가 더 높으며 장면 전반에 걸쳐 '보편성'이나 '일반화'를 추구할 필요가 없습니다. 이때 피아노, 체스, 서예, 그림 등 모든 면에 능숙한 대형 모델을 피아노, 체스, 서예, 그림에 능숙한 수많은 소형 모델로 나누어 문제를 해결할 수도 있다.

4 마지막으로

다시 빈 비누 접시를 부는 선풍기 이야기로 돌아가 보겠습니다.

실생활 문제를 해결하는 AI 기술에 있어서 대형 모델과 소형 모델은 박사후 연구원의 자동화 솔루션, 소형 작업자의 선풍기와 같습니다. 비록 작은 문제를 해결할 때는 전자가 중복되고 번거로워 보이지만 효과는 그렇지 않습니다. 선풍기처럼 빠르지만, 박사후 연구원과 그 팀이 제공하는 가치를 부정하는 사람은커녕 그들을 "제거"하는 사람도 거의 없습니다. 오히려 기술 연구와 개발의 합리성을 강조하는 이유는 수백 가지에 달할 수도 있습니다.

그러나 많은 경우 기술 연구자들은 문제 해결에 있어 소규모 작업자의 지혜를 무시하는 경우가 많습니다. 즉, 기술의 장점에만 국한되기보다는 실제 문제에서 시작하는 것입니다. 이러한 관점에서 볼 때, 대형 모델에 대한 연구는 선두에 선다는 고유한 가치가 있지만, 비용 절감과 효율성 향상이라는 '경제적으로 사용 가능한' 목표도 고려해야 합니다.

연구 자체로 돌아가서 Lan Zhenzhong은 대형 모델에 대한 결과는 많지만 오픈 소스가 거의 없으며 일반 연구자의 접근이 제한되어 있어 매우 안타깝다고 말했습니다.

대형 모델은 오픈소스가 아니기 때문에 일반 사용자들은 수요 관점에서 대형 모델의 실용성을 평가할 수 없습니다. 실제로 우리는 이전에 몇 가지 오픈 소스 대형 모델에 대한 실험을 수행했으며 사회 윤리와 감정을 이해하는 데 있어 대형 언어 모델의 성능이 매우 불안정하다는 것을 발견했습니다.

대중에게 공개되지 않기 때문에 주요 제조업체가 자체 대형 모델을 도입하는 것도 학문적 지표에 머무르며 이는 슈뢰딩거와 유사한 딜레마를 만듭니다. 상자 안에 무엇이 있는지 알 수 없고 판단할 수도 없습니다. 그것이 사실이든 거짓이든, 한마디로 모든 것에 대한 최종 결정권은 그들이 갖고 있습니다. 마지막으로, 대규모 AI 모델이 더 많은 사람들에게 실제로 혜택을 줄 수 있기를 바랍니다.

위 내용은 대기업이 빅 AI 모델을 추구하기 위해 돈을 쓰는 것에 대한 팬과 생각의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!