무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.

PHPz
풀어 주다: 2024-04-01 17:01:22
앞으로
673명이 탐색했습니다.

Lanzhou Technology 공식 발표: Mencius 3-13B 대형 모델이 공식적으로 오픈 소스입니다!

이 크고 비용 효율적인 경량 모델은 학술 연구에 완전히 개방되어 있으며 무료 상업적 사용을 지원합니다.

MMLU, GSM8K, HUMAN-EVAL 등 다양한 벤치마크 평가에서 Mencius 3-13B가 좋은 성능을 보여주었습니다.

특히 매개변수가 20B 이내인 경량 대형 모델 분야에서는 중국어와 영어 실력이 특히 뛰어납니다. 수학과 프로그래밍 능력도 최우선입니다.

무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.
Δ위 결과는 5샷 기준입니다.

보고서에 따르면 Mencius 3-13B 대형 모델은 Llama 아키텍처를 기반으로 하며 데이터 세트 크기는 3T 토큰에 달합니다.

코퍼스는 웹 페이지, 백과사전, 소셜 미디어, 미디어, 뉴스 및 고품질 오픈 소스 데이터 세트에서 선택됩니다. 수조 개의 토큰에 대한 다국어 코퍼스를 지속적으로 훈련함으로써 모델은 뛰어난 중국어 능력을 갖추고 다국어 능력을 고려합니다.

맹자 3-13B 대형 모델은 오픈소스입니다

맹자 3-13B 대형 모델은 단 두 단계만 거치면 사용할 수 있습니다.

먼저 환경을 구성하세요.

pip install -r requirements.txt
로그인 후 복사

그럼 빨리 시작해 보세요.

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))
로그인 후 복사

또한 기본 모델을 사용한 단일 라운드 대화형 추론에 사용할 수 있는 샘플 코드를 제공합니다.

cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path
로그인 후 복사

모델을 미세 조정하려는 경우 관련 파일과 코드도 제공합니다.

무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.

사실 맹자 3-13B 대형 모델에 대한 많은 세부 사항이 이미 3월 18일 란저우 대형 모델 기술 및 제품 출시 컨퍼런스에서 공개되었습니다.

당시 맹자 3-13B 대형모델의 훈련이 완료되었다고 밝혔습니다.

13B 버전을 선택한 이유에 대해 Zhou Ming은 다음과 같이 설명했습니다.

우선, Lanzhou는 ToC로 보완된 ToB 시나리오 서비스에 분명히 초점을 맞추고 있습니다.

실습 결과 ToB 시나리오에서 가장 자주 사용되는 대형 모델의 매개변수는 대부분 7B, 13B, 40B, 100B이며 전체 농도는 10B~100B 사이인 것으로 나타났습니다.

둘째, 이 범위 내에서는 ROI(투자 수익) 관점에서 현장의 요구를 충족할 뿐만 아니라 가장 비용 효율적입니다.

따라서 오랫동안 Lanzhou의 목표는 10B-100B 매개변수 규모 내에서 고품질 산업 대형 모델을 만드는 것이었습니다.

중국 최초의 대형 모델 기업가 팀 중 하나인 란저우는 작년 3월 Mencius GPT V1(MChat)을 출시했습니다.

올해 1월, 맹자 빅모델 GPT V2(맹자 빅모델-표준, 맹자 빅모델-라이트웨이트, 맹자 빅모델-금융, 맹자 빅모델-인코딩 포함)가 공개되었습니다.

좋아요, 관심 있는 친구들은 아래 링크를 클릭하여 체험해 볼 수 있습니다.

GitHub 링크: https://github.com/Langboat/Mengzi3
HuggingFace: https://huggingface.co/Langboat/Mengzi3-13B-Base
모델 범위: https: //www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

위 내용은 무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿