속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 '자선'에 달려 있습니까?-일체 포함-php.cn

지금 The Information의 최신 뉴스에 따르면 OpenAI는 새로운 오픈 소스 대규모 언어 모델을 출시할 예정입니다.

OpenAI가 곧 출시될 오픈 소스 모델을 사용하여 Vicuna 또는 기타 오픈 소스 모델의 시장 점유율을 차지할 의도인지는 확실하지 않습니다.

그러나 새 모델의 기능이 GPT-4 또는 GPT-3.5와 경쟁할 수 없을 가능성이 거의 확실합니다.

결국 GPT의 처음 두 버전은 오픈 소스이지만 270억 달러의 가치 평가로 인해 OpenAI의 가장 진보된 모델이 상업적 목적으로 사용될 것임을 결정합니다.

OpenAI 대변인은 논평 요청에 응답하지 않았습니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

알파카 계열 오픈소스 폭발

열흘 전 구글 내부 문서가 유출됐습니다. "우리에겐 해자가 없고 OpenAI도 마찬가지다"라는 제목의 글에서 저자는 오픈소스가 Google과 OpenAI에 끼친 큰 타격을 한탄합니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

실제로 Google이나 OpenAI 모두 이 군비 경쟁에서 승자가 아닌 것 같습니다. 왜냐하면 오픈 소스 커뮤니티가 그들에게 속한 "혜택"을 먹어치우고 있기 때문입니다.

ChatGPT는 글로벌 LLM 혁명을 시작했습니다. 하지만 OpenAI는 Open이 아니기 때문에 많은 기업과 개발자들은 지켜보고 고민할 수밖에 없습니다.

이 때 Meta가 나서서 LLaMA를 출시하여 전 세계 개발자에게 혜택을 제공했습니다.

원래 Meta는 LLaMA가 비상업적 연구 사용 사례를 위한 오픈 소스가 될 것이라고 약속했지만, 출시 일주일 만에 LLaMA의 가중치가 갑자기 4chan에서 유출되어 수천 건의 다운로드가 발생했다고 누가 생각이나 했을까요? 아주 짧은 시간 .

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

이 "서사시 유출"은 오픈 소스 LLM 분야를 직접적으로 변화시켰습니다. 단 몇 주 만에 다양한 ChatGPT 대체 제품이 빛의 속도로 폭발했습니다.

Alpaca, Vicuna, Koala, ChatLLaMA, FreedomGPT, ColossalChat... "알파카 가족"의 폭발이라고 할 수 있습니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

사실 Yangtuo가 등장하기 오래 전에 오픈 소스 모델은 OpenAI의 야망을 무너뜨렸습니다.

당시 새로 출시된 Dall-E 2는 놀라운 빈첸시안 그래픽 효과로 인터넷에서 큰 반향을 불러일으켰습니다.

그러나 OpenAI가 여전히 API를 판매하려고 할 때 갑자기 오픈 소스 대안인 Stable Diffusion이 등장했습니다.

Stable Diffusion의 급격한 증가와 함께 Dall-E 2는 개발자들에게 빠르게 잊혀졌습니다.

오픈소스 빅 모델, 실리콘 밸리의 대기업을 전복시키고 싶나요?

UC Berkeley 컴퓨터 교수 Ion Stoica는 Meta의 연구를 활용하여 Vicuna를 개발한 학자 중 한 명입니다.

Vicuna의 기능을 향상시키기 위해 Stoica와 동료들은 코드 작성과 같은 추론과 관련된 작업에 도움이 될 모델의 계산 수를 늘리기 위해 노력하고 있습니다.

Vicuna는 연간 수백만 달러의 예산을 가진 Berkeley 팀에 의해 개발되었으며 그 중 약 $500,000는 Microsoft, Google 및 Amazon을 포함한 공공 기업에서 나옵니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

UC Berkeley 컴퓨터 교수인 Ion Stoica는 현재 무료 AI 모델의 성능이 Google 및 OpenAI의 독점 모델과 "아주 가깝다"고 말했습니다. 대부분의 개발자가 결국 무료 모델을 선택할 것이라는 데에는 의심의 여지가 없습니다.

한편으로는 오픈 소스 모델을 통해 개발자는 자신의 데이터를 사용하여 특정 문제를 해결할 수 있습니다.

반면, 비쿠나와 같은 모델의 훈련 비용은 심지어 수백 달러까지 낮을 수 있으며, 대형 제조업체에 비싼 사용료를 지불할 필요가 없습니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

//m.sbmmt.com/link/4d8bd3f7351f4fee76ba17594f070ddd

Stoica가 옳다면 오픈 소스 AI는 Google, OpenAI, Microsoft 등을 확실히 전복시킬 것입니다. 독점 모델 중고판매 유력 제조사의 사업계획서입니다.

Vicuna의 품질과 오픈 소스 AI의 Cambrian 폭발적인 증가로 인해 Google 엔지니어 Luke Sernau는 Google이 OpenAI를 따라잡기 위해 독점 소프트웨어에 너무 많은 초점을 맞추고 있다고 동료들에게 경고했습니다.

무료 고품질 대안에 사용 제한이 없다면 제한이 있는 Google 제품을 사용하기 위해 누가 비용을 지불할까요? 오픈소스 AI는 우리를 앞지르고 있으며 Google은 오픈소스 커뮤니티에서 리더십을 확립하고 우리 모델에 대한 일부 통제권을 포기해야 합니다.

이 메모는 업계 전체에 빠르게 반향을 일으켰습니다. Sernau가 오픈 소스 AI의 기능을 과대평가하고 비용과 위험을 과소평가했을지라도 대부분의 실무자는 Meta가 그 혜택을 누릴 가능성이 매우 높다는 데 동의합니다.

예를 들어 Meta는 콘텐츠 추천 및 광고 포지셔닝을 위해 내부적으로 AI 모델을 사용합니다. 개발자가 Meta의 모델을 개선하면 Meta는 이러한 개선 사항을 자체 내부 AI에 통합할 수 있습니다.

Meta CEO Xiao Zha는 오랫동안 이것을 계획해 왔습니다.

4월에 분석가들과의 전화 회의에서 그는 회사의 전략에 대해 이렇게 말했습니다.

업계가 우리가 사용하는 기본 도구를 표준화할 수 있다면 우리는 더 많은 혜택을 누릴 수 있습니다. 다른 사람들의 개선.

Google은 AI 소프트웨어에 대해 완전히 독점적인 접근 방식을 채택하지 않습니다.

2020년에 Google은 개발자가 번역 및 요약 작업을 수행할 수 있는 소프트웨어를 구축할 수 있는 오픈 소스 언어 모델인 T5를 출시했습니다. 그 후 Google은 더욱 발전된 Flan-T5를 출시했습니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

그러나 Stoica 및 기타 실무자들에 따르면 Meta가 출시하는 소프트웨어는 Google 모델을 기반으로 상당한 개선을 이룰 수 있으며, 이로 인해 개발자가 Meta 모델을 선택할 가능성이 크게 높아집니다.

그러나 Stoica는 Google이 오픈소스 소프트웨어에서 여전히 두 가지 장점을 갖고 있다고 말했습니다.

1. Google이 외부 세계에 공개되지 않은 사용자 데이터를 활용하면 모델은 특정 전문 영역(예: 콘텐츠 추천)에서 더 나은 성능을 발휘할 수 있습니다.

그러나 Google 대변인은 회사가 기존 사용자 데이터를 기반으로 기본 모델을 교육하지 않았다고 말했습니다.

2. 검색 회사의 대규모 컴퓨터 인프라 관리 전문성은 클라우드 고객을 포함하여 더 저렴한 비용으로 모델을 실행할 수 있음을 의미합니다.

동시에 OpenAI는 이미 수백만 명의 사람들이 ChatGPT와 상호 작용하는 방식에 대한 데이터 수집에 앞장섰으며, 이는 Microsoft와의 협력 계약은 물론 OpenAI가 AI 소프트웨어를 개선하는 데 더욱 도움이 될 것입니다.

오픈소스의 번영은 대형 제조업체의 '자선'입니까?

그러나 오픈소스를 기반으로 한 이러한 번영은 불안정합니다.

현재 오픈소스의 대부분은 여전히 강력한 자금을 보유한 대기업이 출시한 거대 모델에 의존하고 있습니다. OpenAI와 Meta가 운영을 중단하기로 결정하면 번창하는 오픈소스 커뮤니티가 침체될 수 있습니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

예를 들어, 현재 많은 오픈 소스 대안이 Meta의 LLaMA를 기반으로 구축되었습니다.

다른 모델은 오픈 소스 비영리 단체 EleutherAI에서 편집한 Pile이라는 대규모 공개 데이터 세트를 사용합니다.

EleutherAI가 존재하는 이유는 OpenAI의 개방성 덕분에 개발자 그룹이 GPT-3 제작 방법을 리버스 엔지니어링한 다음 자유 시간에 자신만의 모델을 만들 수 있다는 의미이기 때문입니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

하지만 모든 것은 바뀔 수 있습니다.

OpenAI는 더 이상 Open이 아니며 Meta는 스타트업이 오픈 소스 코드를 사용하여 나쁜 일을 하는 것을 방지하기 위해 오픈 소스를 제한하는 것도 고려하고 있습니다.

Meta AI의 전무이사인 Joelle Pineau는 지금은 외부인에게 코드를 공개하는 것이 옳은 일이라고 말했지만, Meta가 향후 5년 안에 같은 전략을 채택할지는 확신할 수 없습니다.

이러한 폐쇄 추세가 계속되면 오픈 소스 커뮤니티가 버려질 뿐만 아니라 차세대 AI 혁신도 가장 크고 가장 저렴한 AI 연구소의 손에 돌아갈 것입니다.

분명히 AI 대형 모델을 제작하고 사용하는 방식의 미래는 기로에 서 있습니다.

OpenAI가 인색했다면 오늘은 오픈소스 행사도 없었을 겁니다

이 오픈소스 무료 경쟁이 더 큰 보상을 가져올지, 아니면 더 큰 위험을 가져올지 저울질하는 이들도 있습니다.

Meta AI가 LLaMA를 출시함과 동시에 Hugging Face는 플랫폼에 모델을 다운로드하기 전에 반드시 액세스를 신청하고 승인을 받아야 합니다. 이는 정당한 사유가 있는 모델을 제한하기 위한 것입니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?

Hugging Face의 최고 윤리 과학자인 Margaret Mitchell은 "나는 오픈 소스 전도자가 아닙니다."라고 말했습니다. "오픈소스가 아니라는 의미를 알겠습니다."

대형 모델의 광범위한 사용의 한 가지 단점은 AI 포르노 제품의 확산으로 이어질 수 있다는 것입니다.

Mitchell은 한때 Google에서 근무하면서 AI 윤리팀을 설립했습니다. 그녀는 모델 남용의 위험을 잘 알고 있습니다. 따라서 그녀는 통제된 방식으로 모델을 출시하는 Meta AI를 선호합니다.

동시에 OpenAI도 수도꼭지를 끄고 있습니다. GPT-4가 출시되었을 때 아키텍처(모델 크기 포함), 하드웨어, 훈련 계산, 데이터 세트 구성, 훈련 방법 등과 같은 세부 사항을 발표하지 않았습니다. 그 이유는 "대규모 기업의 경쟁 환경과 보안 영향을 고려하여"였습니다. GPT-4와 같은 규모의 모델." .

이 제한은 OpenAI 사고방식의 변화를 반영합니다. 공동 창립자이자 수석 과학자인 Ilya Sutskever는 OpenAI의 과거 개방성은 실수였다고 말했습니다.

OpenAI의 정책 연구원인 Sandhini Agarwal은 다음과 같이 말했습니다. "이전에는 무언가가 오픈 소스라면 소수의 땜장이들이 신경을 썼을 것입니다. 하지만 지금은 전체 환경이 바뀌었습니다. 오픈 소스는 실제로 개발을 가속화하고 다음으로 이어질 수 있습니다. 경쟁."

3년 전으로 돌아가 OpenAI가 GPT-3의 세부 사항을 발표할 때 동일한 원칙을 고수했다면 EleutherAI의 등장도 없었을 것이고, 활발한 오픈소스 혁신도 없었을 것입니다.

오늘날 EleutherAI는 오픈소스 생태계에서 중추적인 역할을 하고 있습니다. Pile은 Stability AI의 StableLM을 포함한 여러 오픈 소스 프로젝트를 교육하는 데 사용됩니다.

속보: OpenAI가 곧 새로운 모델을 오픈소스화할 예정입니다! 오픈소스 커뮤니티의 번영은 전적으로 대기업의 자선에 달려 있습니까?