ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。-AI-php.cn

ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。

王林

リリース： 2023-04-30 10:55:06

転載

1154 人が閲覧しました

ChatGPT のリリースは AI 分野全体に衝撃を与え、大手テクノロジー企業、新興企業、大学チームもこれに追随しています。最近、Heart of the Machine は多くのスタートアップ企業や大学チームの研究結果を報告してきました。

昨日、別の大規模な国内 AI 対話モデルが堂々とデビューしました。ChatGLM は、清華社の技術的成果を基に変換された同社のスマートスペクトル AI であり、GLM-130B 1000 億ベースモデルに基づいています。、現在、内部テストの招待を受け付けています。

Zhipu AI は、単一の消費者向けグラフィックスカードでの推論をサポートする中国語と英語のバイリンガル対話モデル ChatGLM-6B もオープンソース化していることは言及する価値があります。

ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。

#社内ベータアプリケーション Web サイト: chatglm.cn

ChatGLM モデルの現行バージョンの機能向上は、主に独自の 1,000 億ベースモデル GLM-130B によるものであることがわかります。 BERT、GPT-3、T5 とは異なるアーキテクチャであり、多目的関数を含む自己回帰事前トレーニングモデルです。

2022 年 8 月、清華大学と Zhipu AI は、1,300 億のパラメーターを備えた中国語-英語バイリンガル密モデル GLM-130B を研究コミュニティと業界に公開しました。このモデルにはいくつかの独自の機能があります。 :

バイリンガル: 中国語と英語の両方をサポート;
高精度 (英語): 公共の英語の自然言語でより優れていますLAMBADA、MMLU、Big-bench-lite のリストにある GPT-3 175B (API: davinci、ベースモデル)、OPT-175B および BLOOM-176B;
高精度 (中国語) ): 7 つのゼロサンプル CLUE データセットおよび 5 つのゼロサンプル FewCLUE データセットで ERNIE TITAN 3.0 260B および YUAN 1.0-245B よりも大幅に優れています;
高速推論: 最初の 1,000 億INT4 定量化を実装し、4 カード 3090 または 8 カード 2080Ti サーバーによる高速かつ基本的にロスレス推論をサポートするモデル;
再現性: すべての結果 (各タスク 30 以上) を検証できます。オープンソースコードとモデルパラメーターを通じて再現;
クロスプラットフォーム: 国内の Haiguang DCU、Huawei Ascend 910、Sunway プロセッサーと米国の NVIDIA チップでのトレーニングと推論をサポートします。

ChatGPT の設計思想を参照して、ChatGLM は教師あり微調整 (教師あり微調整) を通じて、GLM-130B ベースモデルにコードの事前トレーニングを注入しました。 ) など、人間の意図の調整を実現するテクノロジー。

Heart of the Machine は内部ベータ招待コードを取得しました。これは ChatGLM との簡単な会話です。効果は次のとおりです:

ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。

「ステーション CP」の実際の意味を理解できます:

ChatGLM に数学の問題を与えて試してください:

ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。

2 変数の線形方程式を学んだので、このような基本的な「ニワトリとウサギを同じかごに入れる」問題はもう解けなくなりました。困った:

ChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。

オープンソース ChatGLM-6B

ChatGLM-6B は、中国語と英語のバイリンガルの質疑応答をサポートし、中国語用に最適化されたオープンソースの対話言語モデルです。このモデルは一般言語モデル (GLM) アーキテクチャに基づいており、62 億のパラメーターがあります。モデル量子化テクノロジーと組み合わせることで、ユーザーはそれを民生用グラフィックカードにローカルに展開できます (INT4 量子化レベルでは最低 6GB のビデオメモリが必要です)。 ChatGLM-6B は ChatGLM と同じテクノロジーを使用しており、中国語の Q&A と対話に最適化されています。約 1T の識別子を使用した中国語と英語のバイリンガルトレーニングを経て、教師付き微調整、フィードバックセルフサービス、ヒューマンフィードバック強化学習、その他のテクノロジーによって補完された、62 億パラメータの ChatGLM-6B (1,000 億モデルほどではないものの、推論コストが大幅に削減され、効率が向上し、すでに人間の好みと完全に一致する答えを生成できるようになりました。

モデルのオープンソースアドレス: https://github.com/THUDM/ChatGLM-6B

具体的には、 ChatGLM-6B には次の特徴があります:

# 中国語と英語の十分なバイリンガル事前トレーニング: ChatGLM-6B は、中国語と英語の教材で 1T のトークン量をトレーニングしました。比率は 1:1 で、両方ともバイリンガルです。
最適化されたモデルアーキテクチャとサイズ: GLM-130B トレーニングの経験に基づいて、従来の FFN 構造を使用して 2 次元 RoPE 位置エンコーディングの実装が改訂されました。パラメータサイズが 6B (62 億) であるため、研究者や個人の開発者が自分自身で ChatGLM-6B を微調整して導入することも可能になります。
低い導入しきい値: FP16 半精度では、ChatGLM-6B は推論に少なくとも 13 GB のビデオメモリを必要とします。モデル量子化テクノロジと組み合わせると、この要件はさらに 10 GB に削減できます ( INT8 ) および 6GB (INT4) に対応しており、ChatGLM-6B をコンシューマーグレードのグラフィックスカードに展開できます。
より長いシーケンス長: GLM-10B (シーケンス長 1024) と比較して、ChatGLM-6B のシーケンス長は 2048 で、より長い会話とアプリケーションをサポートします。
人間の意図の調整トレーニング: 教師あり微調整、フィードバックブートストラップ、人間のフィードバックからの強化学習、およびその他の方法を使用して、モデルが意図を理解する能力を持ち始めています。人間の指示。出力形式は表示しやすいようにマークダウン形式です。

#ただし、ChatGLM-6B モデルの容量が小さいため、次のような制限や欠点が必然的に発生します。 #モデルの記憶力と言語機能が比較的弱い。 ChatGLM-6B は、多くの事実知識のタスクに直面すると、誤った情報を生成する可能性があり、論理的な問題 (数学、プログラミングなど) を解決するのがあまり得意ではありません。

有害なイラストや偏ったコンテンツが生成される可能性があります: ChatGLM-6B は人間の意図に沿った暫定的な言語モデルにすぎず、有害なコンテンツや偏ったコンテンツが生成される可能性があります。
弱い複数ターン対話機能: ChatGLM-6B の文脈理解能力は十分ではなく、長い回答の生成や複数ターンの対話シナリオ、および誤解状況に直面した場合に文脈損失が発生する可能性があります。。
#GLM チームは、ChatGLM は世界トップの大規模モデルの研究や製品にはまだ遠く及ばないと述べており、将来的には、ChatGLM の最新バージョンの開発とオープンソース化を継続する予定であると述べています。 ChatGLM と関連モデル。 GLM チームはまた、ChatGLM-6B をダウンロードし、それに基づいて研究や (非営利の) アプリケーション開発を行うことを歓迎します。

以上がChatGLM は清華ベースのギガビット基本会話モデルであり、内部テストが開始されており、モデルのオープンソースシングルカードバージョンです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。