Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました-AI-php.cn

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

王林

リリース： 2023-06-03 21:27:21

転載

883 人が閲覧しました

ChatGPT が今でも愚かな間違いを犯すとは思いませんでしたか?

マスター Andrew Ng は最新のクラスでこのことを指摘しました:

ChatGPT は単語を反転させません。

たとえば、lollipop という単語を逆にすると、出力は pilollol となり、完全に混乱を招きます。

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

#ああ、これは確かに少しショックです。

授業を聞いたネチズンが Reddit に投稿すると、すぐに多くの見物人が集まり、投稿はすぐに 6,000 回の再生回数に達しました。

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

これは偶然のバグではなく、ChatGPT が実際にこのタスクを完了できないことがネチズンにわかり、私たちの個人的なテストの結果も同様です。同じ。

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

△実際の ChatGPT (GPT-3.5)

偶数Bard、Bing、Wen Xinyiyan などの製品は動作しません。

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました #△実測値バード

Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました △実測値ウェンXinyi Yan

フォローアップして、ChatGPT はこれらの単純な単語タスクの処理がひどいと不満を言う人もいます。

たとえば、人気の単語ゲーム Wordle をプレイするのは大失敗で、決してうまくいきませんでした。

#え？どうしてこれなの？ Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

鍵はトークンにあります

この現象の鍵はトークンにあります。トークンはテキスト内で最も一般的な文字シーケンスであるため、大規模なモデルではテキストの処理にトークンが使用されることがよくあります。

単語全体または単語の断片を指定できます。大規模なモデルは、これらのトークン間の統計的関係を熟知しており、次のトークンを巧みに生成できます。

したがって、単語を反転するという小さなタスクを扱うときは、文字の代わりに各トークンをひっくり返すだけかもしれません。

これは中国語の文脈ではさらに明らかです。単語はトークンであるか、単語はトークンです。 Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

冒頭の例に関しては、誰かが ChatGPT の推論プロセスを理解しようとしました。 Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

より直感的に理解できるように、OpenAI は GPT-3 Tokenizer もリリースしました。 Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

たとえば、lollipop という単語は、GPT-3 では I、oll、ipop の 3 つの部分として理解されます。 Andrew Ng の ChatGPT クラスが話題になりました: AI は単語を逆から書くことをやめましたが、世界全体を理解しました

経験の要約に基づいて、いくつかの暗黙のルールが生まれました。

1 トークン ≈ 4 つの英語文字 ≈ 単語の 4 分の 3;

100 トークン ≈ 75 単語;

1-2 文 ≈ 30 トークン;
段落 ≈ 100 トークン、1500 単語 ≈ 2048 トークン;
単語の分割方法も言語によって異なります。以前に誰かが、中国語で使用されるトークンの数は英語の 1.2 ～ 2.7 倍であると計算しました。
トークン対文字 (トークン対単語) の比率が高くなるほど、処理コストも高くなります。したがって、中国語のトークン化の処理は英語よりもコストが高くなります。

トークンは、大規模なモデルが人間の現実世界を理解するための手段であることが理解できます。これは非常にシンプルで、メモリと時間の複雑さが大幅に軽減されます。

しかし、単語のトークン化には問題があり、モデルが意味のある入力表現を学習することが困難になります。最も直感的な表現は、単語の意味を理解できないことです。

当時、Transformers は対応する最適化を行っていました。たとえば、複雑で一般的ではない単語は、意味のあるトークンと独立したトークンに分割されました。

「迷惑」が「迷惑」と「嘘」の 2 つの部分に分かれているのと同じように、前者は独自の意味を保持し、後者はより一般的です。

これは、人間の言語を非常によく理解できる、今日の ChatGPT やその他の大型モデル製品の驚くべき効果にもつながりました。

単語の反転などの小さなタスクを処理できないことについては、当然解決策があります。

最も簡単で直接的な方法は、自分で単語を分割することです~

または、ChatGPT に段階的に実行させることもできます, まず各文字をトークン化します。

あるいは、文字を反転するプログラムを作成させれば、プログラムの結果は正しくなります。 (犬頭)

# ただし、GPT-4 も使用できますし、実際のテストではそのような問題はありません。

△実測 GPT-4
つまり、トークンは AI による自然言語理解の基礎となります。
AI が人間の自然言語を理解するための橋渡しとして、トークンの重要性がますます明らかになってきています。
これは、AI モデルのパフォーマンスと大規模モデルの課金基準の重要な決定要因となっています。
トークンに関する文献もあります
前述のように、トークンを使用すると、モデルが単語の意味、語順、文法構造など、より詳細な意味情報を取得しやすくなります。シーケンスモデリングタスク (言語モデリング、機械翻訳、テキスト生成など) では、位置と順序がモデルの構築に非常に重要です。
モデルがシーケンス内の各トークンの位置とコンテキストを正確に理解した場合にのみ、コンテンツをより適切かつ正確に予測し、適切な出力を提供できます。
したがって、トークンの質と量はモデルの効果に直接影響します。
今年から大規模なモデルが続々とリリースされるため、トークンの数が重視されるようになり、例えばGoogle PaLM 2の暴露の詳細では、トレーニングに3.6兆トークンを使用したと記載されています。
そして、業界の多くの著名人も、トークンは非常に重要であると述べています。
今年 Tesla から OpenAI に乗り換えた AI 科学者の Andrej Karpathy 氏は、スピーチの中で次のように述べています:

トークンを増やすことでモデルの思考を改善できるようになります。

そして、モデルのパフォーマンスはパラメーターのサイズだけによって決まるわけではないことを強調しました。
たとえば、LLaMA のパラメータサイズは GPT-3 よりもはるかに小さいですが (65B 対 175B)、トレーニングにより多くのトークンを使用するため (1.4T 対 300B)、LLaMA の方が強力です。

モデルのパフォーマンスに直接影響するため、トークンは依然として AI モデルの課金標準です。
OpenAI の価格基準を例に挙げると、1,000 トークン単位で請求され、モデルやトークンの種類によって価格も異なります。

つまり、AI の大規模モデルの分野に足を踏み入れると、トークンが避けられない知識ポイントであることがわかります。

まあ、トークン文献さえ派生しています...

しかし、トークンがどのような役割を果たしているかについては言及する価値があります。中国語圏では何と訳すべきかはまだ完全に決まっていません。

「トークン」の直訳はいつも少し奇妙です。

GPT-4 では、「単語要素」または「タグ」と呼ぶ方がよいと考えていますが、どう思いますか?

参考リンク:
[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/
[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
[3]https://openai.com /価格