스탠포드 팀이 칭화대 대형 모델을 표절한 후속 사건 -
Llama3-V팀이 표절을 인정했고, 스탠포드 학부생 2명도 다른 작가와의 인연을 끊었습니다.
Siddharth Sharma(Siddhartha)과 Aksh Garg(Akshy)이 보낸 최신 사과 트윗입니다.
그들 중에는 University of Southern California의 Mustafa Aljadery(Lao Mu라고 함)가 주요 잘못 당사자로 기소되었으며 어제부터 행방불명되었습니다.
Lao Mu가 첫 번째 진술을 했으나 어제부터 연락이 닿지 않았다.
Siddharth, I (Akshi)과 Lao Mu가 Llama3-V를 출시했고 Lao Mu가 프로젝트의 코드를 작성했습니다.
Siddharth와 나의 역할은 그가 Medium과 Twitter에서 이 모델을 홍보하도록 돕는 것입니다. 작품의 혁신성을 검증하기 위해 최근 논문을 찾아봤지만, Wall Intelligence에 대한 선행연구는 전해지지도 않았고 발견되지도 않았습니다.
도망신고를 당한 올드무 본인은 X홈페이지가 보호되어 잠겼으니 신청해야만 팔로우가 가능합니다:
전체적으로 이 사과 트윗과 어제의 트윗은 다음과 같습니다. 발송 후 급하게 삭제했습니다. 올라온 트윗의 내용은 사과와 추가 비난에 중점을 두는 것과 거의 동일했습니다.
결국 스탠포드 인공지능 연구소장 크리스토퍼 매닝까지 나서서 불평하기 시작했습니다.
이것은 자신의 실수를 인정하지 않는 전형적인 사례입니다!
팀이 '유사 아키텍처', 'MiniCPM이 우리보다 빨리 구현됐다'는 핑계를 대며 사건 이후 중요한 문제를 회피했다고 믿었고 표절임을 인정하지 않았습니다.
그러나 새로운 사과문은 네티즌들의 의심을 멈추지 않았습니다. 그리고 최근 밝혀진 바에 따르면 이 형제들은 단순히 표절을 반복한 범죄자일 뿐이며, 그들이 이전에 집필한 교과서도 표절된 것임이 드러났습니다.
원저자 팀인 Face Wall Intelligence는 어제 "해외 팀에서도 인정하는 방법"이라고 답변한 CEO Li Dahai에 이어 수석 과학자 Liu Zhiyuan Zhihu에도 등장했습니다." 개인 답변:
저는 이미 Llama3-V가 MiniCPM-Llama3-V 2.5 셸에 적합하다고 확신합니다.
인공지능의 급속한 발전은 글로벌 알고리즘, 데이터, 모델의 오픈소스 공유와 떼려야 뗄 수 없기 때문에 사람들은 언제나 SOTA의 어깨 위에 서서 계속해서 전진할 수 있습니다. 이번에 오픈 소스 MiniCPM-Llama3-V 2.5는 최신 Llama3을 언어 모델 기반으로 사용합니다. 오픈 소스 공유의 초석은 오픈 소스 프로토콜 준수, 다른 기여자에 대한 신뢰, 전임자의 업적에 대한 존경과 찬사입니다. Llama3-V 팀은 의심할 여지 없이 이를 심각하게 손상시켰습니다. 조사를 받은 후 Huggingface에서 데이터베이스를 삭제했습니다. 팀원 3명 중 2명은 스탠포드 대학의 학부생입니다. 앞으로 이러한 실수를 바로잡을 수 있다면 좋을 것입니다. 개선.
먼저 이 큰 멜론에 대해 간단히 살펴보겠습니다.
한 문장으로 요약하자면, 일부 네티즌들은 최근 오픈소스 커뮤니티에서 인기를 끌고 있는 스탠포드 팀의 멀티모달 대형 모델 Llama3-V이 국내 MiniCPM과 아키텍처 및 코드가 거의 동일하다는 사실을 발견했습니다. -Llama3-V 2.5, 그리고 많은 증거가 Llama3-V 표절을 직접적으로 지적합니다.
사건이 점차 전개되자 스탠포드 AI팀은 데이터베이스를 삭제하고 도망갔고, 월페이싱 인텔리전스팀도 해당 사건에 대한 조사에 착수했습니다.
Wall-Facing Intelligence의 수석 과학자이자 Tsinghua University의 영구 부교수인 Liu Zhiyuan은 Llama3-V가 MiniCPM-Llama3-V 2.5 쉘인 주요 이유를 설명했는데, 이것이 바로 Tsinghua Jane의 인식 능력입니다.
이것은 MiniCPM-Llama3-V 2.5의 "이스터 에그" 기능입니다. Tsinghua University Jane에서 스캔하고 주석을 추가한 데이터 세트를 사용하여 훈련되었습니다. 공개되지 않았습니다. Llama3-V의 성능은 MiniCPM-Llama3-V 2.5의 성능과 완전히 동일합니다. 정답도 동일할 뿐만 아니라 실수도 동일합니다.
오늘 1차 증거를 바탕으로 다른 네티즌들이 새로운 단서를 발견했습니다. 일부 사람들은 연구 결과 Llama3-V의 거의 모든 레이어의 무게 차이가 평균이 0이고 표준 편차가 1.4e-3인 가우스 분포를 따른다는 것을 발견했습니다. 따라서 Llama3-V는 MiniCPM의 가중치에 직접적으로낮은 분산 노이즈를 추가하는 것으로 추측됩니다.
그리고, 가출한 큰 형 라오무가 이전에 '컴퓨터 네트워크 디자인'에 관한 책을 썼고, 그 책을 복사하기도 했다는 사실이 밝혀졌습니다.
책에서 한 장을 무작위로 꺼내 표절 탐지기를 사용해 탐지하면 빨간색 점들이 많이 보일 것입니다:
그리고, 이 책의 저자 칼럼에 네티즌들에 따르면 책에는 Siddha 많은 이름도 있습니다.
일부 네티즌들은 도서 복제가 사실인지 여부는 아직 조사가 필요하다고 믿고 있습니다. 하지만 이제 이 책도
404.
이 표절에 대해 이야기하면서 Siddharth와 Akshay의 사과문에서는 Mu 형제와 함께 이 프로젝트를 추진한 이유가 처음에 이 다중 모드 모델에 놀랐기 때문이라고 언급했습니다. 특히 아키텍처 확장 기반이 마음에 듭니다. Mu 형제가 설명하는 Idefics, SigLip 및 UHD에 대해 설명합니다.
그러나 사실 네티즌들은 공간 모드 등 여러 측면에서 Llama3-V의 구체적인 구현이 LLaVA-UHD와 다르지만 놀랍게도 MiniCPM-Llama3-V 2.5와 일치한다는 사실을 네티즌들이 일찍 알아냈습니다.
MiniCPM-Llama3-V 2.5 홈페이지에 따르면 MiniCPM-Llama3-V 2.5는 벽면 지능형 MiniCPM-V 시리즈의 최신 오픈 소스 모델이며 SigLip-400M 및 Llama3-8B-Instruct를 기반으로 구축되었습니다. , 총 8B 매개변수가 있습니다.
성능 측면에서 MiniCPM-Llama3-V 2.5는 OpenCompass에서 평균 65.1점을 획득하여 GPT-4V-1106, Gemini Pro, Claude 3, Qwen-VL-Max 등과 같은 독점 모델보다 훨씬 뛰어난 성능을 보였습니다. 다른 Llama 3 기반 다중 모달 언어 모델을 능가합니다.
또한 MiniCPM-Llama3-V 2.5는 강력한 OCR 기능을 갖추고 있어 OCRBench에서 700점 이상을 획득하여 GPT-4o, GPT-4V-0409, Qwen-VL-Max 및 Gemini Pro를 능가합니다.
최신 RLAIF-V 방법을 기반으로 MiniCPM-Llama3-V 2.5는 Object HalBench에서 10.3%의 환상률을 가지며, 이는 GPT-4V-1106의 13.6%보다 낮습니다.
비록 비난은 빠르게 일축되었지만, 네티즌들은 Akshay와 Siddharth의 사과문에서 밝은 점을 빨리 발견했습니다:
두 분은 아무것도 공동 집필하지 않았습니다. 홍보에 도움을 주면 프로젝트 작성자로 간주되나요?
발표 당시에는 셋이서 하는 프로젝트라고 했는데, 일이 잘못되면 책임은 한 사람에게 전가되는 건가요?
라오무가 혼자 코드 다 썼다면 둘이서 뭐하고 포스팅만 하시나요?
일부 네티즌들은 좀 더 비판적인 주제를 제기해 더욱 열띤 토론을 촉발시켰습니다. -
오픈소스 커뮤니티는 중국의 대형 모델 결과를 무시한 걸까요?
Google DeepMind 연구원이자 ViT 작성자인 Lucas Beyer는 Llama3-V가 복사되었지만 비용은 미화 500달러 미만이며 효과가 Gemini를 직접 따라잡을 수 있으며 GPT-4 오픈 소스 모델이 존재한다고 언급했습니다.
하지만 Llama3-V에 비해 MiniCPM은 저를 포함해 훨씬 덜 주목을 받았습니다.
주된 이유는 그러한 모델이 아이비리그 학교가 아닌 중국 연구실 출신이기 때문인 것 같습니다.
Huaqiang 플랫폼 및 커뮤니티 책임자인 Omar Sanseviero는 다음과 같이 더 직접적으로 말했습니다.
커뮤니티는 중국 기계 학습 생태계의 작업을 무시해 왔습니다. 그들은 흥미로운 빅 언어 모델, 빅 비전 모델, 오디오 및 확산 모델을 사용하여 놀라운 일을 하고 있습니다.
Qwen, Yi, DeepSeek, Yuan, WizardLM, ChatGLM, CogVLM, Baichuan, InternLM, OpenBMB, Skywork, ChatTTS, Ernie, HunyunDiT 등이 포함됩니다.
많은 네티즌들은 "현재 최고의 오픈소스 VLM을 출시했다"며 이에 동의했습니다.
대형 모델 분야의 좀 더 객관적인 관점에서 보면 이 말이 사실입니다.
모델들이 1대1로 경쟁하는 비주얼 대형 모델 분야에서는 01Wansheng의 Yi-VL-Plus가 Google의 Gemini Pro Vision을 제치고 5위에 올랐습니다. Zhipu AI와 Tsinghua University의 공동 작업인 CogVLM도 상위 10위에 올랐습니다.
이 외에도 이번에 표절된 멀티모달 모델인 DeepSeek, Tongyi Qianwen, MiniCPM 시리즈도 좋은 성적을 거두었습니다.
더 널리 알려진 LMSYS Chatbot Arena Leaderboard 경기장 목록에서 중국의 대형 모델들도 "가장 강력한 오픈 소스"에 대한 새로운 기록을 끊임없이 세우고 있습니다.
Liu Zhiyuan 선생님이 말했듯이:
수평적 관점에서 볼 때 우리는 Sora 및 GPT-4o와 같은 최고의 국제적 작업과 여전히 상당한 격차를 가지고 있는 동시에, 수직적 관점에서 볼 때 10년 전만 해도 아무도 없는 회사에서 리더로 빠르게 성장했습니다. 인공지능 기술 혁신의 핵심입니다.
이 멜론은 거대하고 많은 사람들이 그것을 먹고 있으며 아마도 더 중요한 것은 일부 고정 관념이 무너지고 있다는 것입니다. 어떻게 생각하나요?
MiniCPM 원본 논문https://arxiv.org/abs/2404.06395
위 내용은 포격 스캔들은 스탠포드 AI 연구소 소장을 화나게 한다! 표절팀 2명이 책임을 지고 1명이 사라지며 전과가 드러났다. 네티즌들: 중국의 오픈소스 모델을 다시 이해하라.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!