Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.-일체 포함-php.cn

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

王林

풀어 주다： 2023-04-30 10:55:06

앞으로

1309명이 탐색했습니다.

ChatGPT의 출시는 전체 AI 분야를 뒤흔들었고 주요 기술 회사, 스타트업 및 대학 팀이 이를 따르고 있습니다. 최근 하트 오브 더 머신(Heart of the Machine)에는 수많은 스타트업 기업과 대학팀의 연구 결과가 보도됐다.

어제 또 다른 대규모 국내 AI 대화 모델이 출시되었습니다. Tsinghua의 기술 성과를 변형하고 GLM-130B 1000억 기본 모델을 기반으로 한 회사의 스마트 스펙트럼 AI인 ChatGLM이 이제 초대 전용 대화 모델을 시작했습니다. 내부 베타.

Zhipu AI가 단일 소비자급 그래픽 카드에서 추론을 지원하는 중국어-영어 이중 언어 대화 모델 ChatGLM-6B도 오픈 소스로 제공했다는 점은 언급할 가치가 있습니다.

Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

내부 베타 애플리케이션 웹사이트: chatglm.cn

ChatGLM 현재 버전의 성능 향상은 주로 고유한 1000억 베이스 모델인 GLM-130B에서 비롯된 것으로 이해됩니다. . BERT, GPT-3, T5와는 다른 아키텍처로 다중 목적 함수를 포함하는 자동 회귀 사전 학습 모델입니다.

2022년 8월, Tsinghua University와 Zhipu AI는 1,300억 개의 매개변수를 갖춘 중국어-영어 이중 언어 밀도 모델 GLM-130B를 연구 커뮤니티 및 업계에 공개했습니다. 중국어 및 영어 모두

높은 정확도(영어): 공개 영어 자연어 목록 LAMBADA, MMLU 및 Big-bench-lite(API: davinci, 기본 모델)에서 GPT-3 175B보다 우수함 및 OPT-175B BLOOM-176B;
높은 정확도(중국어): 7개의 제로 샘플 CLUE 데이터 세트 및 5개의 제로 샘플 FewCLUE 데이터 세트에서 ERNIE TITAN 3.0 260B 및 YUAN 1.0-245B보다 훨씬 우수합니다.
빠른 추론: INT4 정량화를 구현하는 최초의 1000억 모델로 4카드 3090 또는 8카드 2080Ti 서버로 빠르고 기본적으로 무손실 추론을 지원합니다.
재현성: 모든 결과(각 작업당 30개 이상)를 공개를 통해 재현할 수 있습니다. 소스 코드 및 모델 매개변수
크로스 플랫폼: 국내 Haiguang DCU, Huawei Ascend 910 및 Sunway 프로세서, 미국 NVIDIA 칩에 대한 교육 및 추론을 지원합니다.
이제 ChatGPT의 디자인 아이디어를 참조하여 ChatGLM은 Supervised Fine-Tuning과 같은 기술을 통해 인간 의도 정렬을 달성하기 위해 코드 사전 훈련을 GLM-130B 기본 모델에 주입했습니다.

Heart of the Machine이 비공개 베타 초대 코드를 획득했습니다. ChatGLM과의 간단한 대화 내용은 다음과 같습니다.

"Station"의 실제 의미를 이해할 수 있습니다. CP": Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

Give ChatGLM 수학 문제를 풀어보세요:

두 변수의 선형 방정식을 배웠기 때문에 이와 같은 기본적인 "같은 우리 안의 닭과 토끼" 문제는 더 이상 문제가 되지 않습니다. : Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.

오픈 소스 ChatGLM-6B

ChatGLM-6B는 중국어와 영어 이중 언어 질문과 답변을 지원하고 중국어에 최적화된 오픈 소스 대화 언어 모델입니다. 이 모델은 GLM(General Language Model) 아키텍처를 기반으로 하며 62억 개의 매개변수를 가지고 있습니다. 모델 양자화 기술과 결합하여 사용자는 이를 소비자급 그래픽 카드에 로컬로 배포할 수 있습니다(INT4 양자화 수준에서는 최소 6GB의 비디오 메모리가 필요함). ChatGLM-6B는 ChatGLM과 동일한 기술을 사용하며 중국어 Q&A 및 대화에 최적화되어 있습니다. 감독된 미세 조정, 피드백 셀프 서비스, 인간 피드백 강화 학습 및 기타 기술로 보완된 약 1T 식별자를 사용하여 중국어와 영어로 이중 언어 훈련을 마친 후 62억 개의 매개 변수 ChatGLM-6B(1000억 모델만큼 크지는 않지만) 추론 비용을 크게 줄이고 효율성을 향상시켰으며 이미 인간의 선호도와 상당히 일치하는 답변을 생성할 수 있습니다.

모델 오픈 소스 주소: https://github.com/THUDM/ChatGLM-6B

특히 ChatGLM-6B에는 다음과 같은 기능이 있습니다.

중국어 전체 이중 언어 사전 교육 및 영어 : ChatGLM-6B는 중국어와 영어 자료에 대해 1:1 비율로 1T 토큰을 교육했으며 이중 언어 기능을 갖추고 있습니다.
최적화된 모델 아키텍처 및 크기: GLM-130B 교육 경험을 바탕으로 기존 FFN 구조를 사용하여 2D RoPE 위치 인코딩 구현이 수정되었습니다. 6B(62억)의 매개변수 크기를 통해 연구원과 개인 개발자가 ChatGLM-6B를 직접 미세 조정하고 배포할 수도 있습니다.
낮은 배포 임계값: FP16 절반 정밀도에서 ChatGLM-6B는 추론을 위해 최소 13GB의 비디오 메모리가 필요하며 모델 양자화 기술과 결합하여 이 요구 사항을 10GB(INT8) 및 6GB(INT4)로 더 줄일 수 있습니다. ChatGLM-6B를 소비자급 그래픽 카드에 배포할 수 있습니다.
더 긴 시퀀스 길이: GLM-10B(시퀀스 길이 1024)에 비해 ChatGLM-6B의 시퀀스 길이는 2048로 더 긴 대화와 애플리케이션을 지원합니다.
인간 의도 정렬 훈련: 지도형 미세 조정, 피드백 부트스트랩, 인간 피드백을 통한 강화 학습 및 기타 방법을 사용하여 모델이 처음에 인간 지시 능력의 의도를 이해할 수 있습니다. 출력 형식은 쉽게 표시할 수 있도록 마크다운입니다.

ChatGLM-6B 모델의 용량이 작기 때문에 필연적으로 다음과 같은 몇 가지 제한 사항과 단점이 있습니다.

모델 메모리 및 언어 기능이 상대적으로 약합니다. ChatGLM-6B는 많은 사실적 지식 작업에 직면할 때 잘못된 정보를 생성할 수 있으며 논리적 문제(수학, 프로그래밍 등)를 해결하는 데는 그리 좋지 않습니다.
유해한 설명이나 편향된 콘텐츠를 생성할 수 있음: ChatGLM-6B는 인간의 의도에 부합하는 예비 언어 모델일 뿐이며 유해하고 편향된 콘텐츠를 생성할 수 있습니다.
약한 다단계 대화 능력: ChatGLM-6B의 문맥 이해 능력이 충분하지 않습니다. 긴 답변 생성 및 다단계 대화 시나리오에 직면하면 문맥 손실 및 이해 오류가 발생할 수 있습니다.

GLM 팀은 ChatGLM이 여전히 최고의 국제 대형 모델 연구 및 제품에 비해 훨씬 뒤떨어져 있다고 밝혔습니다. 앞으로도 ChatGLM 및 관련 모델의 업데이트 버전을 계속 개발하고 오픈 소스할 것입니다. GLM 팀은 또한 ChatGLM-6B를 다운로드하고 이를 기반으로 연구 및 (비상업적) 애플리케이션 개발을 수행하는 모든 사람을 환영합니다.

위 내용은 Tsinghua 기반 기가비트 기본 대화 모델인 ChatGLM은 내부 테스트를 시작했으며 해당 모델의 오픈 소스 단일 카드 버전입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!