Open AI의 ChatGPT 출시로 대규모 언어 모델(LLM)이 주목을 받았습니다. 그 이후로 여러 회사에서도 LLM을 시작했지만 이제는 더 많은 회사가 소규모 언어 모델(SLM)을 지향하고 있습니다.
SLM이 점점 탄력을 받고 있는데 SLM이 무엇이며 LLM과 어떻게 다른가요?
SLM(Small Language Model)은 매개 변수가 더 적은 일종의 인공 지능 모델입니다(훈련 중에 학습한 모델의 값이라고 생각하세요). 더 큰 규모의 SLM과 마찬가지로 SLM은 텍스트를 생성하고 다른 작업을 수행할 수 있습니다. 그러나 SLM은 훈련에 더 적은 수의 데이터 세트를 사용하고, 더 적은 매개변수를 가지며, 훈련 및 실행에 필요한 계산 능력도 더 적습니다.
SLM은 주요 기능에 중점을 두고 있으며 설치 공간이 작다는 것은 다음을 포함한 다양한 장치에 배포할 수 있다는 것을 의미합니다. 모바일 장치와 같은 고급 하드웨어가 없습니다. 예를 들어 Google의 Nano는 모바일 장치에서 실행되도록 처음부터 구축된 온디바이스 SLM입니다. 회사에 따르면 Nano는 크기가 작기 때문에 네트워크 연결 유무에 관계없이 로컬로 실행할 수 있습니다.
나노 외에도 많아요 AI 분야의 선두 기업과 미래 기업의 기타 SLM. 일부 인기 있는 SLM에는 Microsoft의 Phi-3, OpenAI의 GPT-4o mini, Anthropic의 Claude 3 Haiku, Meta의 Llama 3 및 Mistral AI의 Mixtral 8x7B가 포함됩니다.
다른 옵션도 사용할 수 있으며 LLM이라고 생각할 수도 있지만 실제로는 SLM. 이는 대부분의 회사가 포트폴리오에 둘 이상의 언어 모델을 출시하고 LLM과 SLM을 모두 제공하는 다중 모델 접근 방식을 취하고 있다는 점을 고려할 때 특히 그렇습니다. 한 가지 예로 GPT-4, GPT-4o(Omni), GPT-4o mini 등 다양한 모델이 있는 GPT-4가 있습니다.
SLM을 논의할 때 큰 모델인 LLM을 무시할 수 없습니다. SLM과 LLM의 주요 차이점은 모델 크기이며 이는 매개변수로 측정됩니다.
이 글을 쓰는 시점에서 AI 업계에서는 최대 개수에 대한 합의가 없습니다. 모델은 SLM으로 간주되기 위해 매개변수 수 또는 LLM으로 간주되기 위해 필요한 최소 수를 초과해서는 안 됩니다. 그러나 SLM에는 일반적으로 수백만에서 수십억 개의 매개변수가 있는 반면, LLM에는 그보다 많게는 수조 개에 달하는 매개변수가 있습니다.
예를 들어 2020년에 출시된 GPT-3에는 1,750억 개의 매개변수가 있습니다(그리고 GPT-4 모델은 약 1조 7,600억개 정도가 있다는 소문이 있음), 마이크로소프트의 2024년형 Phi-3-mini, Phi-3-small, Phi-3-medium SLM은 각각 3.8, 7, 140억 개의 매개변수를 측정합니다.
SLM과 LLM의 또 다른 차별화 요소는 훈련에 사용되는 데이터의 양입니다. SLM은 더 적은 양의 데이터를 학습하는 반면, LLM은 대규모 데이터 세트를 사용합니다. 이러한 차이는 복잡한 작업을 해결하는 모델의 기능에도 영향을 미칩니다.
훈련에 사용되는 대규모 데이터로 인해 LLM은 고급 추론이 필요한 다양한 유형의 복잡한 작업을 해결하는 데 더 적합하고 SLM은 간단한 작업에 더 적합합니다. 작업. LLM과 달리 SLM은 교육 데이터를 덜 사용하지만 LLM의 많은 기능을 작은 패키지로 달성하려면 사용되는 데이터의 품질이 더 높아야 합니다.
대부분의 사용 사례에서 SLM은 기업과 소비자가 다양한 작업을 수행하는 데 사용하는 주류 모델이 되기에 더 나은 위치에 있습니다. 물론 LLM에는 장점이 있으며 복잡한 작업 해결과 같은 특정 사용 사례에 더 적합합니다. 그러나 SLM은 다음과 같은 이유로 대부분의 사용 사례에서 미래입니다.
SLM은 LLM보다 교육에 필요한 데이터가 적기 때문에 교육 데이터, 재정 또는 두 가지 모두가 제한된 개인 및 중소기업에 가장 실행 가능한 옵션입니다. LLM에는 많은 양의 훈련 데이터가 필요하며, 더 나아가 훈련과 실행을 모두 위해서는 막대한 계산 리소스가 필요합니다.
이를 관점에서 살펴보면 OpenAI의 CEO인 Sam Altman은 훈련에 1억 달러 이상이 소요되었다고 확인했습니다. MIT 행사에서 연설하는 동안 GPT-4(Wired에 따름). 또 다른 예는 Meta의 OPT-175B LLM입니다. Meta에 따르면 CNBC에 따르면 단위당 약 $10,000의 비용이 드는 992개의 NVIDIA A100 80GB GPU를 사용하여 훈련되었습니다. 에너지, 급여 등과 같은 기타 비용을 제외하면 비용은 약 900만 달러에 이릅니다.
이런 수치로 볼 때 중소기업이 LLM을 교육하는 것은 불가능합니다. 이와 대조적으로 SLM은 리소스 측면에서 진입 장벽이 낮고 운영 비용이 저렴하므로 더 많은 기업이 SLM을 채택할 것입니다.
성능은 SLM이 작은 크기로 인해 LLM을 능가하는 또 다른 영역입니다. SLM은 대기 시간이 짧고 실시간 애플리케이션과 같이 더 빠른 응답이 필요한 시나리오에 더 적합합니다. 예를 들어, 디지털 비서와 같은 음성 응답 시스템에서는 더 빠른 응답이 선호됩니다.
기기에서 실행된다는 것은(나중에 자세히 설명) 요청이 온라인 서버를 방문했다가 다시 돌아올 필요가 없다는 것을 의미합니다. 문의사항에 응답하시면 더 빠른 답변을 받으실 수 있습니다.
생성 AI에 있어서 한 가지 변함없는 점은 쓰레기가 들어오면 쓰레기가 나온다는 것입니다. 현재 LLM은 원시 인터넷 데이터의 대규모 데이터 세트를 사용하여 교육되었습니다. 따라서 모든 상황에서 정확하지 않을 수도 있습니다. 이는 ChatGPT 및 유사 모델의 문제점 중 하나이며 AI 챗봇이 말하는 모든 것을 신뢰해서는 안 되는 이유입니다. 반면 SLM은 LLM보다 고품질 데이터를 사용하여 교육하므로 정확도가 더 높습니다.
SLM은 특정 작업이나 도메인에 대한 집중적인 교육을 통해 더욱 세부적으로 조정할 수 있으므로 해당 작업의 정확도가 높아집니다. 더 크고 일반화된 모델에 비해 면적이 넓습니다.
SLM은 LLM보다 컴퓨팅 성능이 덜 필요하므로 엣지 컴퓨팅 사례에 이상적입니다. 이는 큰 컴퓨팅 성능이나 리소스가 없는 스마트폰 및 자율주행차와 같은 엣지 장치에 배포될 수 있습니다. Google의 Nano 모델은 기기에서 실행될 수 있으므로 인터넷에 연결되어 있지 않아도 작동할 수 있습니다.
이러한 기능은 기업과 소비자 모두에게 윈윈(win-win) 상황을 제시합니다. 첫째, 사용자 데이터가 클라우드로 전송되지 않고 로컬로 처리되므로 개인 정보 보호 측면에서 승리합니다. 이는 우리에 대한 거의 모든 세부 정보를 담고 있는 스마트폰에 더 많은 AI가 통합됨에 따라 중요합니다. AI 작업을 처리하기 위해 대규모 서버를 배포하고 실행할 필요가 없기 때문에 기업에게도 유리합니다.
SLM은 Open AI, Google, Microsoft, Anthropic, Meta 등이 이러한 모델을 출시하고 있습니다. 이러한 모델은 우리 대부분이 LLM을 사용하는 간단한 작업에 더 적합합니다. 그러므로 그들은 미래입니다.
하지만 LLM은 아무데도 가지 않습니다. 대신, 의학 연구와 같이 다양한 영역의 정보를 결합하여 새로운 것을 창조하는 고급 애플리케이션에 사용됩니다.
위 내용은 LLM 너머: 소규모 언어 모델이 AI의 미래인 이유는 다음과 같습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!