데빈 너머! Yao Ban이 이끄는 그들은 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.-일체 포함-php.cn

데빈 너머! SWEBench가 순위 목록에 새로운 플레이어를 맞이했습니다.

StarShip CodeGen Agent는 Yao Ban이 이끄는 스타트업 OpenCSG에서 제작했으며 23.67%의 점수로 세계 2위에 올랐습니다.

동시에 non-GPT-4o 기본 모델(SOTA) 부문 최고 기록을 세웠습니다.

데빈 너머! Yao Ban이 이끄는 그들은 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

우리 모두는 SWebench 평가가 실제 프로그래밍 시나리오와 매우 유사하고 매우 어렵다는 것을 알고 있습니다. 이를 위해서는 모델이 요구 사항을 이해하고 여러 기능/클래스 및 파일에 대한 변경 사항을 조정해야 할 뿐만 아니라 모델이 다음을 수행해야 합니다. 실행 환경과 상호 작용하고 매우 긴 컨텍스트를 처리하며 기존 코드 생성 작업에 대한 복잡한 논리적 추론을 수행합니다.

이 어려운 실제 테스트에서 업계 최고의 GPT4와 Devin은 1.74%와 13.86%의 문제만 해결할 수 있습니다.

이 성과는 OpenCSG를 기반으로 보다 실용적이고 지능적이며 자율적인 방향으로 언어 모델 개발을 촉진하려는 선도적인 움직임입니다. 이러한 움직임은 국내 기업이 보다 실용적이고 지능적이며 자율적인 방향으로 언어 모델 애플리케이션 개발을 촉진하기 위해 취한 중요한 조치입니다.

대형 모델 프로그래밍은 얼마나 어려운가요?

2024년 3월, 최초의 AI 소프트웨어 엔지니어 데빈의 등장은 기술계 전체를 뒤흔들었습니다. 일련의 논란이 수반되었지만 Devin의 강력한 혁신 역량과 엄청난 잠재력은 많은 AI 애호가와 실무자에게 새로운 기대를 불러일으켰습니다. Devin은 뛰어난 기술과 광범위한 지식을 보유하고 있으며 뛰어난 알고리즘과 강력한 프로그래밍 능력으로 유명합니다. 그의 연구 결과와 개발된 소프트웨어는 끊임없이 돌파하고 혁신하여 많은 AI 애호가와 실무자를 불러 모았습니다.

Devin은 코딩 작업을 쉽게 해결할 수 있을 뿐만 아니라 프로젝트 계획부터 배포, 배포까지 소프트웨어 개발의 전체 주기를 독립적으로 완료할 수 있습니다. 웹 사이트 구축, 버그 자동 검색 및 수정, AI 모델 교육 및 미세 조정 등을 포함하되 이에 국한되지 않습니다.

데빈 너머! Yao Ban이 이끄는 그들은 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

데빈이 GPT4 등 기본 모델의 프로그래밍 능력에 감히 도전하는 이유는 무엇일까요?

핵심은 소프트웨어 엔지니어가 코드를 작성할 뿐만 아니라 요구 사항 이해, 코드 해석, 프로그래밍 계획, 코드 생성, 디버깅 및 예외 복구 등도 포함한다는 것입니다. 여기의 각 링크는 대규모 모델 프로그래밍의 유용성과 효과에 영향을 미칩니다.

이러한 실제 시나리오를 위해 프린스턴 대학교는 엔드투엔드 코드 생성 기능을 정량적으로 평가하기 위한 도구인 SWEBench를 제안했습니다.

GPT-4의 SWEBench 점수는 1.74%에 불과합니다. RAG 기술을 사용해도 점수는 3% 미만으로, 기본 모델에만 의존하여 실제 프로그래밍 문제를 직접 해결할 수 없음을 보여줍니다. .

그리고 Devin의 기술 혁신은 에이전트 기반 워크플로 구성을 기반으로 하며, 이는 SWEBench의 솔루션 속도를 새로운 차원으로 끌어올립니다.

3월 데빈은 13.86%의 독립적인 문제 해결률로 1위에 올랐으며, 이는 "대형 모델 프로그래밍"을 거의 사용할 수 없는 상태에서 "오늘의 빛을 보는" 상태로 직접적으로 개선했습니다. 실리콘밸리의 주요 기업과 대형 모델 스타트업들이 SE를 위한 LLM 분야에 진출하며 이 기록은 계속해서 새로 쓰여지고 있습니다.

2024년 4월 말 기준 최고 기록은 Amazon AI팀이 출시한 Amazon Q Developer Agent가 세운 20.33%입니다.

더 아쉬운 점은 기본 모델 명단에 오른 중국 기업의 '백화 꽃 피우기'에 비해 이 어려운 도전에 중국 기업은 거의 참여하지 않았다는 점이다. OpenCSG가 이 기록을 다시 썼다.

중국 스타트업에서

SWEBench의 최근 평가 결과가 업데이트되었습니다. OpenCSG가 이 회사에서 출시한 OpenCSG StarShip CodeGen 에이전트가 Lite 평가에서 23.67%의 합격률을 달성했습니다. Devin과 Amazon의 결과를 능가했을 뿐만 아니라.

OpenCSG(Open Expression)은 설립된 지 불과 1년밖에 되지 않은 대규모 모델 생태 커뮤니티를 구축하고 인공지능 산업의 업스트림 및 다운스트림 엔터프라이즈 체인을 모아 솔루션과 도구 플랫폼을 공동으로 제공하는 데 전념하는 회사입니다. 수직 산업 분야의 대형 모델 적용을 위한 것입니다.

팀은 오픈 소스 및 대규모 모델 합성에 대한 깊은 경험을 보유하고 있습니다. -

CEO Chen Ran은 오픈 소스 소프트웨어 분야에서 잘 알려진 기업가이며 오픈 소스 분야에서 많은 상업 회사를 성공적으로 구축했습니다.

CTO Wang Wei는 칭화대학교 야오 05학번 출신으로 인공 지능 분야에서 다년간의 연구 개발 경험을 갖고 있습니다.

회사의 핵심 R&D 팀에는 칭화대학교, 북경대학교, 와튼대학교, 홍콩과기대학교 및 기타 대학의 엘리트 학생들도 함께 모였습니다.

그렇다면 이런 팀은 어떻게 새로운 기록을 만들어낼 수 있을까요?

현재 많은 기업이 기본 모델, 수직 도메인 모델, RAG 및 기타 기술을 적극적으로 탐구하고 실천하고 있는 반면 OpenCSG는 다음과 같은 초점 방향을 선택했습니다. 프로그래밍 에이전트의 혁신적인 개발과 대형 모델의 심층적인 최적화에 전념 알고리즘.

에이전트 수준: LLM+RAG 또는 일반 에이전트 프레임워크와는 달리 OpenCSG StarShip CodeGen 에이전트는 소프트웨어 연구 및 개발 분야에서 고도로 맞춤화되고 최적화된 에이전트를 위해 설계되었습니다. 연구 및 개발의 모든 단계를 통합(요구 사항 이해, 코드 검색, 프로그래밍 계획, 코드 작성, 주기 검증 등) LLM 에이전트를 통해 구현되며 심층적인 최적화를 위해 AST 구문 분석, 종속성 검색 등의 소프트웨어 엔지니어링 방법과 결합되어 우수성을 위해 노력합니다. 모든 링크를 연결하고 최종적으로 통합을 통해 더 높은 정밀도의 코드 생성을 달성합니다.

알고리즘 수준: 코드 버전 변경으로 인한 API 충돌과 같은 일반적인 문제에 대응하여 OpenCSG는 교사 모델을 통해 코드 버전 변경 기록을 분석하여 고품질 프로그래밍 데이터를 생성하고 이를 활용하는 적응형 교사 모델을 제안합니다. 기본 모델의 생성 효과를 향상시킵니다. 평가에 따르면 이러한 혁신으로 인한 개선 사항은 특히 API 구조가 자주 업데이트되는 인기 있는 프로젝트 시나리오에서 현재 RAG 모델보다 훨씬 더 좋습니다. 본 부분의 관련 결과는 논문으로 작성되어 국제학술대회에 제출되었습니다.

이 알고리즘 + 엔지니어링 두 가지 접근 방식과 지속적인 개선 모델이 OpenCSG CodeGen 에이전트를 다른 모델보다 돋보이게 합니다.

"StarShip은 모든 종류의 가전제품이다"

CodeGen Agent의 실제 평가가 작은 테스트라면 StarShip은 OpenCSG의 원대한 청사진을 담고 있습니다.

StarShip의 제품 포지셔닝과 관련하여 OpenCSG CEO Chen Ran은 다음과 같이 말했습니다.

StarShip은 대형 모델을 위한 소프트웨어 개발을 재구성하려는 우리의 비전을 수행합니다. 사용자는 StarShip에 내장된 에이전트를 통해 자체 디지털 직원 팀을 구성합니다. CodeGen Agent는 플랫폼에 내장된 디지털 프로그래머로, 현재 CodeReview Agent 코드 리뷰어와 CodeSearch 코드 질문 및 답변 엔지니어가 출시되었습니다. 코딩 지원 도구와 달리 이러한 디지털 작업자는 사람의 지원 개입 없이 직접적이고 독립적으로 작업할 수 있을 것으로 기대합니다. 앞으로는 요구 사항, 설계, 코딩, 테스트, 운영 및 유지 관리의 모든 측면을 완벽하게 다룰 수 있는 더 많은 유형의 디지털 직원을 출시할 것입니다.

CTO Wang Wei는 이 길은 도전으로 가득 차 있지만 매우 흥미롭다고 말했습니다. "첫 번째 원칙에 따르면 대형 모델의 생산성 향상은 더 이상 '예' 또는 '아니오'의 문제가 아니라 시기와 방법의 문제입니다." StarShip은 어디서, 어떤 형태로 우리가 제공하려는 답변입니다. "

데빈 너머! Yao Ban이 이끄는 그들은 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.

StarShip 외에도 OpenCSG 팀도 상당히 생산적입니다. CSGHub 오픈 소스 모델 플랫폼, wukong 사전 훈련 모델, CSGCoder Fine -튜닝 코드. 모델 등. 이 제품은 업계에서 정확하게 포지셔닝되어 호평을 받고 있습니다.

이러한 제품의 신속한 출시와 반복은 시장 수요를 충족할 뿐만 아니라 대형 모델을 통해 모든 기업의 모든 사람에게 역량을 부여한다는 공통 목표를 달성합니다.

모든 기업과 모든 사람의 역량을 강화할 수 있는 대형 모델을 활성화하려면 물과 전기와 같은 대형 모델을 만들어야 합니다. 큰 모델이 전기에너지라면 CSGHub는 전력망이고 StarShip은 결국 수천 가구에 전력을 공급할 다양한 가전제품이다.

OpenCSG의 개념은 오픈소스입니다. 오픈소스를 핵심으로 주장하는 회사로서 오픈소스 모델과 코드를 구현하는 것뿐만 아니라 플랫폼을 오픈소스로 만듭니다.

CTO Wang Wei는 다음과 같이 요약했습니다. 우리는 오픈 소스의 이점을 활용하여 더 짧은 시간에 결과를 얻을 수 있는 동시에 오픈 소스 커뮤니티에 환원할 것입니다. 이것이 오픈소스 커뮤니티의 기본 원칙입니다. 또한 저는 오픈 소스는 단지 모델일 뿐이며 모델보다 제품 가치가 더 중요하다는 Sam Altman의 말에 매우 동의합니다.

“벤치마크 자체는 숫자에 불과합니다. GPT4-o 출시로 SWEBench의 테스트 점수는 곧 30%를 넘을 것으로 예상되며, 내년에는 낙관적인 추정치가 50%를 넘을 수도 있습니다. 그리고 이러한 이면의 제품 가치에 더욱 관심이 쏠립니다. 숫자: 모델 역량과 엔지니어링 기술의 향상으로 디지털 직원은 사용성에서 사용 용이성으로 양적 변화에서 질적 변화를 이끌어 다양한 산업 분야에서 포괄적인 폭발을 가져올 것입니다.”라고 Wang Wei는 설명했습니다. 빅모델 시대의 트렌드, 기업부터 개인까지 모두가 대비해야 합니다.”

위 내용은 데빈 너머! Yao Ban이 이끄는 그들은 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!