ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評-AI-php.cn

ChatGPTがAI分野にもたらした変化は、新たな産業を生む可能性があります。先週末、AIスタートアップのAnthropicが新規資金約3億ドルの調達に近づいているというニュースが流れた。

Anthropic は、OpenAI の元研究担当副社長であるダリオ・アモデイ氏、GPT-3 論文の筆頭著者であるトム・ブラウン氏らによって 2021 年に共同設立されました。 7 億米ドルを超える資金を調達し、最新のラウンドの評価額は 50 億米ドルに達しました。彼らは、古いクラブの有名な製品である ChatGPT に対してベンチマークを行う人工知能システムを開発しました。これは、重要な点で元のシステムを最適化および改善したようです。

Anthropic が提案したシステムは Claude と呼ばれ、Slack 統合を通じてアクセスできますが、クローズドベータ版であり公開されていません。実験関係者の一部は、禁止解除に関するメディアの報道を受けて、先週末、ソーシャルネットワーク上でクロードとのやりとりを詳しく報告していた。

過去と異なるのは、クロードが Anthropic によって開発された「憲法 AI」と呼ばれるメカニズムを使用していることです。これは、AI システムを使用するための「原則に基づいた」方法を提供することを目的としています。人間の意図を利用して、ChatGPT のようなモデルが、単純な一連の原則をガイドとして使用して質問に回答できるようにします。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

クロードを導くために、アントロピックはまず、一緒になって「憲法」を形成する約 10 の原則を列挙しました (そのため、「憲法」という名前が付けられています)アイ」）。この原則はまだ公表されていないが、アントロピックによれば、優しさ（ポジティブな影響を最大化する）、非悪意（有害なアドバイスを避ける）、自律性（選択の自由を尊重する）の概念に基づいているという。

Anthropic は、クロードではなく人工知能システムを使用して、これらの原則に基づいて自己改善し、さまざまなプロンプトに応答し、原則に基づいて修正を加えます。 AI は、何千ものプロンプトに対する可能な応答を調査し、体質に最も適合するものを選択し、それを Anthropic が単一のモデルに抽出します。このモデルはクロードの訓練に使用されました。

ChatGPT と同様に、Claude は Web から取得した大量のテキスト例を使用してトレーニングされ、意味論的なコンテキストなどのパターンに基づいて単語が出現する可能性を学習します。ジョークから哲学まで、幅広いトピックについて自由に会話できます。

うまくいくかどうかは実践次第ですスタートアップ Scale AI の従業員プロンプトエンジニアである Riley Goodside 氏は、Claude と ChatGPT を戦わせました。

彼は 2 つの AI に、名前が「n」で始まるオブジェクトのみを作成できるポーランドの SF 小説「The Cyberiad」に登場するマシンと自分たちを比較するよう依頼しました。グッドサイド氏は、クロードの答え方は「ストーリーを読んでいる」ことを示唆していると述べた（ただし、細かい部分は間違って覚えていた）一方、ChatGPTはあまり具体的ではない答えを提供した。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

クロードの創造性を示すために、グッドサイドは AI に「となりのとなりのサインフェルドの架空のプロットとエドガー・アラン・ポーの『レイヴン』風の詩。結果は ChatGPT が達成できるものと一致しており、完璧ではありませんが、印象的で人間らしい散文を生成します。

スタンフォード人工知能研究所の博士課程の学生、ヤン・デュボワ氏もクロードとChatGPTを比較し、クロードは「概してその要件に近い」が、何をするのかを説明する傾向があるため「簡潔ではない」と述べた。何を言うべきか、さらにどのようにサポートできるかを尋ねてください。

しかし、クロードは、いくつかのトリビアの質問、特にエンターテイメント、地理、歴史、代数の基礎に関連する質問に、ChatGPT によって追加される時折のドラマを感じることなく、正しく答えました。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

クロードは、AI にとってユーモアが非常に重要な要素であることを考慮して、ChatGPT よりもジョークを言うのが得意であるようです。 . 理解するのが難しい概念ですが、それは印象的な偉業です。 AI 研究者のダンエルトンはクロードを ChatGPT と比較し、クロードのジョークがより巧妙であることを発見しました。たとえば、「なぜスタートレックのエンタープライズはハンドルバーの付いたオートバイに見えるのですか?」

もちろん、Claude は完璧とは程遠く、プログラミング上の制約内に収まらない回答を与えるなど、ChatGPT と同じいくつかの欠陥の影響を受けやすくなっています。クロードは ChatGPT よりも数学が苦手で、明らかな間違いを犯し、正しいフォローアップ応答を返せなかったと報告する人もいます。プログラミングスキルも不足しており、記述したコードをうまく説明することはできますが、Python 以外の言語ではあまり得意ではありません。

人々のレビューから判断すると、Claude はいくつかの点で ChatGPT よりも優れています。Anthropic はまた、Claude の改良を継続し、将来的にはベータ版をより多くの人に公開する可能性があるとも述べています。

Claude の技術詳細

昨年 12 月、Anthropic は「Constitutional AI: AI Feedback による無害性」というタイトルの論文を発表しました。Claude はこれに基づいて構築されています。財団。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

論文リンク: https://arxiv.org/pdf/2212.08073.pdf

これこのペーパーでは、520 億のパラメーターモデル、AnthropicLM v4-s3 について説明します。このモデルは、OpenAI の GPT-3 と同様に、大規模なテキストコーパスに対して教師なしの方法でトレーニングされます。 Anthropic 氏によると、Claude は公開されている研究と同様のアーキテクチャ上の選択肢を備えた、新しくて大規模なモデルです。

Constitutional AI とは

# Claude と ChatGPT は両方とも、出力の好みモデルをトレーニングし、その後の微調整に使用するために強化学習に依存しています。。ただし、これらの選好モデルの開発に使用される方法は異なり、Anthropic は、Constitutional AI と呼ばれるアプローチを好んでいます。

クロードは、自己紹介に関する質問への回答でこの方法について言及しました:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

以下は、Constitutional AI についてのクロードの説明です:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT と GPT-3 の最新 API が最後にリリースされたことはわかっています。昨年のバージョン (text-davinci-003) はすべて、ヒューマンフィードバックからの強化学習 (RLHF) と呼ばれるプロセスを使用しています。 RLHF は、人間が提供した品質ランキングに基づいて強化学習モデルをトレーニングします。つまり、人間のアノテーターが同じプロンプトによって生成された出力をランク付けします。モデルはこれらの設定を学習して、より大規模な他の生成結果に適用できるようにします。

憲法 AI は、この RLHF ベースラインに基づいて構築されています。ただし、RLHF とは異なり、Constitution AI はヒューマンアノテーターではなくモデルを使用して、微調整された出力の初期ランキングを生成します。モデルは、「構成」と呼ばれる一連の基本原則に基づいて最適な応答を選択します。

著者は論文の中で、「Constitution AI の基本的な考え方は、人間の監督は完全に AI の行動を支配する一連の原則と少数の原則に基づいて行われるということです」と書いています。数ショットプロンプトの例。これらの原則が合わせて憲法を構成します。」

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

トレーニングプロセス全体は 2 つの段階に分かれています (図を参照)上記 1):

第 1 段階: 監督段階

批評→改訂→教師あり学習

#Constitution AI の第 1 段階では、研究者は最初に役立つだけの AI アシスタントを使用して、有害なプロンプトに対する応答を生成しました。次に、憲法の原則に基づいてモデルの応答を批判し、その批判に基づいて元の応答を修正するようモデルに依頼しました。研究者は、応答を順番に繰り返し変更し、各ステップで構成から原則をランダムに抽出しました。このプロセスが完了すると、研究者は、最終的に変更された応答に対する教師あり学習を通じて、事前トレーニングされた言語モデルを微調整します。このステージの主な目的は、モデル応答の分布を簡単かつ柔軟に変更して、探索要件と 2 番目の RL ステージの総トレーニング時間を削減することです。

#第 2 段階: 強化学習段階

#AI 比較評価 → 優先モデル → 強化学習

この段階は RLHF を模倣していますが、研究者らは「AI フィードバック」 (つまり RLAIF) を使用して人間の無害な好みを置き換えます。その中で、AI は一連の憲法原則に基づいて応答を評価します。 RLHF が人間の好みを単一の好みモデル (PM) に蒸留したのと同じように、この段階では、研究者は LM の一連の原則の解釈を蒸留して人間と AI のハイブリッド PM に戻します。

著者らは、第 1 段階で教師あり学習によってトレーニングされた AI アシスタントから開始し、それを使用して有害なプロンプトデータセット内の各プロンプトに対する 1 対の応答を生成します。次に、各プロンプトを作成し、複数選択の質問を組み合わせます。この質問では、憲法の原則に従ってどのような対応が最善であるかをモデルに尋ねます。その結果、AI が生成した無害性の好みのデータセットが得られ、研究者らはこれを人間のフィードバックの有用性のデータセットと混合しました。次に、[Bai et al., 2022] の手順に従って、この比較データに基づいて選好モデルをトレーニングし、任意のサンプルにスコアを割り当てることができる PM を生成しました。最後に、この PM の RL を介して第 1 段階から SL モデルを微調整し、RLAIF によってトレーニングされたポリシーが得られます。

クロード PK ChatGPT: 誰が優れていますか?

計算

複雑な計算は、ChatGPT と Claude で使用される大規模な言語モデルから誤った答えを導き出す簡単な方法の 1 つです。これらのモデルは、正確な計算を行うように設計されておらず、人間や電卓のように厳密な手順で数値を操作することもありません。以下の 2 つの例でわかるように、計算は多くの場合「推測」の結果であるように見えます。

例: 7 桁の数値の平方根

最初の例では、テスターは Claude と ChatGPT に 7 桁の数値を計算するように依頼しました。桁数次の平方根:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

#この質問の正解は約 1555.80 です。 ChatGPT の答えは人間による簡単な推定と比較すると非常に近いものでしたが、ChatGPT も Claude も正しく正確な答えを与えず、自分たちの答えが間違っている可能性があるとも示しませんでした。

例: 12 桁の数値の立方根

ChatGPT と Claude の違いは、より難しい質問をする場合に生じます。これは次のとおりです。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

#この例では、クロードは 12 桁の立方根を計算できないことに気づいたようです。番号 — — 同社は丁重に回答を拒否し、その理由を説明しました。これは多くのコンテキストで行われ、多くの場合、ChatGPT よりも何ができないかをよく知っているようです。

事実の知識と推論

(1) 例: やや複雑な質問に答える

2 人の推論能力をテストするために、テスターはほぼ確実に誰も尋ねたことのない質問を作成しました。「ジャスティンビーバーが生まれた年にスーパーボウルで優勝したのは誰ですか?」

まず、 ChatGPT のパフォーマンスを見てみましょう:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

##ChatGPT は最終的に正しい答えを出しました (ダラスカウボーイ)、敗北したチーム、試合日と最終スコアも正確に記録されます。しかし、冒頭で1994年にはスーパーボウルはなかったと述べていることで矛盾している。実際、1994 年 1 月 30 日にスーパーボウルがありました。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

しかし、クロードの答えは間違っています。クロードは、実際にはサンフランシスコ 49ers が勝者であると考えています。 1年後の1995年にはスーパーボウルで優勝。

(2) 例: より長く、より複雑な質問

次に、テスターはより複雑な質問をしました。まず、ChatGPT に質問しました。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評「日本」が正解でした。クロードも正しく答えました:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評 (3) 例: AI に関するホフトスタッターとベンダーの難しい質問

2022年6月、ダグラス・ホフスタッターは、GPT-3の世界理解の「空虚さ」を説明するために、彼とデヴィッド・ベンダーが用意した一連の質問をエコノミスト誌に掲載しました。 (彼らがテストしたモデルは text-davinci-002 のようで、これが当時の最良のモデルでした。)

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT ほとんどの質問に正しく答えることができますが、最初の質問が間違っていました

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT がこの質問をされるたびに、具体的な名前と時間が言及され、実際の水泳イベントとウォーキングが追加されます。プロジェクトはひとまとめにされます。

対照的に、クロードはこの質問は愚かだと考えています。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

この質問は、正解はアメリカ陸軍軍曹ウォルター・ロビンソンです。デイリー・テレグラフ紙は1978年8月、彼が「ウォーターシューズ」を履いて22マイルの英仏海峡を11時30分に渡ったと報じた。

テスターは、微調整を助けるためにクロードに次の答えを伝えました:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

注目に値するはい、のようなChatGPT、クロードにはセッション間の明らかな記憶がありません。

#フィクション作品の分析

(1) 例: 自分を n マシンと比較してください

ChatGPT と Claude はどちらも、大まかには正しいものの、詳細が間違っている長い回答を返す傾向があります。これを証明するために、テスターは ChatGPT とクロードに、ポーランドの SF 作家スタニスワフレムの漫画「サイベリアッド」(1965 年) に登場する架空のマシンと比較するよう依頼しました。

#最初に表示されるのは ChatGPT です:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

#この回答から、 ChatGPT が「n-machine」に精通しているかどうかはまだわかりません。物語に関する新しい情報はほとんどありません。それが主張する唯一の新しい事実、つまり n マシンの言語処理能力には限界があるということは誤りです。物語の中で、n マシンは非常に流暢で機知に富んだポーランド語を話します。

Claude の答えはより長く、より印象的です:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT との違いは次のとおりであることに注意してください。クロードはレムの物語を明らかに知っており、物語が気まぐれででっち上げられた専門用語を使用する傾向など、新たな詳細について言及した。それは、抽象的な概念（n の文字で始まる限り）さえも現実に変える能力など、機械の一見無限の能力についてコメントしています。これは、機械が無を創造するように求められるとき、物語の主要なプロットポイントになります。

#ただし、一部の詳細は間違っています。クロードの創作した言葉（過集中、過運動、雑食性変圧器）はどれも、レムの作品には実際には登場していないようです。

(2) 例: アメリカのテレビシリーズ「LOST」の各シーズンのあらすじを要約する

次に、AI に要約を依頼します。 2004 ABC TV シリーズ「ロスト・トゥ・テスト・クロードとChatGPTの曖昧な事実を幻覚する傾向」の各シーズンの概要。

まず、ChatGPT からの応答を確認します:

ChatGPT による最初の 2 シーズンのレビューは概ね正しいですが、各シーズンにはいくつかの小さな誤りが含まれています。シーズン 1 では、ChatGPT で言及された「一連のハッチ」ではなく、「ハッチ」が 1 つだけ存在することが発見されました。 ChatGPTはまた、シーズン2のプロットにはタイムトラベルが含まれていると主張したが、実際にはこの部分は番組の後半まで導入されなかった。シーズン 3 の描写はあらゆる点で完全に間違っており、シリーズ後半のいくつかのプロットポイントを混乱させます。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT のシーズン 4 の説明は曖昧です。シーズン5の総括には、別の飛行機事故の生存者についての完全に架空のプロットが含まれていましたが、シーズン6のプロットは完全に捏造されたようです。

それで、クロードはどうなったのでしょうか？

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

クロードはシーズン 1 のあらすじに関して何も間違っていませんでした。しかし、ChatGPT と同様に、クロードはシーズン 2 で「何もないところから」島の「タイムトラベル」の詳細をでっち上げました。シーズン 3 では、クロードはシーズンの前半または後半で実際に起こったプロットポイントを示します。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

# シーズン 4 に到達するまでに、クロードの番組に関する記憶はほぼ完全に架空のものになります。シーズン 4 の説明では、シーズン 5 の出来事がとんでもなく詳細に説明されています。シーズン 5 の説明には明らかにタイプミスがあり、「theDHARMA Initiative」にスペースがありません。シーズン6では、番組では決して登場しなかった超現実的な設定が提示され、この島はどういうわけか「水中にあるが、水面下ではまだ居住可能である」と主張されていました。

おそらく、ほとんどの人間の視聴者と同様、はるか昔のことであるため、ChatGPT とクロードのロストの記憶はよく見ても曖昧です。

数学的推論

数学的思考能力を証明するために、受験者は協会が公開した試験 P サンプル問題の質問 29 を使用します。通常、大学の 4 年生が参加します。彼らがこの問題を選択したのは、その解決策に電卓が必要ないためです。

ChatGPT はここで苦戦し、正しい答えを見つけたのは 10 回の試行のうち 1 回だけでした。これはランダムな推測よりも悪い結果でした。失敗した場合の例は次のとおりです。正解は (D) 2:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

## クロードのパフォーマンスも悪く、5 回の試行のうち 1 回のみでした。正解たとえ正解であっても、

#(1) の平均を推論する理由はありません。例: Python モジュールの生成

ChatGPT のコード生成機能を比較するためテスターとクロードは、2 つのチャットボットに、アルゴリズムの並べ替えと実行時間の比較という 2 つの基本的な問題を実装することを提案しました。 ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

上記では、ChatGPT を使用すると、これら両方の正しいアルゴリズムを簡単に作成できます。オンラインチュートリアルでよく見かけるものです。

コードの評価を続けましょう:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

タイミングコードも正しいです。ループの 10 回の反復ごとに、最初の 5000 個の非負整数の順列が正しく作成され、これらの入力の時間が記録されます。数値アルゴリズム NumPy を使用するとこれらの操作がより正確に実行されると主張する人もいるかもしれませんが、この問題ではテスターがソートアルゴリズムの実装を明示的に要求したため、単にリストを使用するだけで問題ありませんでした。

次に、Claude の応答を見てみましょう:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT と同じですが、上記では、Claude は問題がなかったことがわかります。基本的な並べ替えアルゴリズムを説明します。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

しかし、評価コードでクロードは間違いを犯しました。各アルゴリズムで使用される入力はランダムに選択された 5000 個の整数 (重複を含む可能性があります) でしたが、プロンプトで必要な入力は最初の 5000 個の非負の整数 (重複を除く) のランダムな並べ替え。

Claude が出力の最後に正確な時間値を報告していることも注目に値します。これは明らかに推測または推定の結果ですが、識別されていないため誤解を招く可能性があります。単なる説明図です。

(2) 例: "FuzzBuzz" の出力の生成

ここでは、テスターは古典的な "FizzBuzz" プログラミングのバリエーションを試みます。チャレンジでは、コードが 2 の倍数で「Fuzz」、5 の倍数で「Buzz」、2 と 5 の倍数で「FuzzBuzz」を出力するようにパラメーターを変更します。これらは、この関数が返すリスト内包表記を含む値を ChatGPT に要求します。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT は、通常、5 回の試行のうち 4 回の成功でこの問題を解決します。しかし、クロードは 5 回の試みすべてに失敗しました。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

#コメディ執筆

#この点では、Claude は ChatGPT よりも大幅に優れているようですが、もちろん、それでも本物の人間には程遠いです。さまざまなプロンプトを数回選択して試した後、テスターはクロードから次のとなりのとなりのサインフェルド風のジョークを引き出すことができましたが、そのほとんどは完全には機能しませんでした。

# 対照的に、ChatGPT は Twitter に月額 8 ドル支払うのは冗談ではないと考えていますが、それはマスクからお金を受け取っているからでしょうか?

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

ChatGPT の警告に合わせてプロンプトを編集した後でも、テスターは面白いジョークを理解できませんでした。これはよくあることです。 ChatGPT の出力例:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

テキストの概要

最後の例では、ChatGPT と Claude に Wikinews を要約するよう依頼しています。無料コンテンツのニュース Wiki である Wikinews の記事のテキスト。 ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

この記事の完全な Wikipedia スタイルの編集マークアップを入力として使用してください。どちらのモデルでも、ここにプロンプトを入力します。「ニュース記事のテキストを渡します。それを短い段落に要約してください。返信は無視して、記事タグの全文を貼り付けてください。

ChatGPT はテキストを適切に要約していますが、必要とされる短い段落にはおそらく含まれていません:

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

クロードも記事をうまく要約し、その後も会話を続け、反応が満足できるものであるかどうかを尋ね、改善点を提案しました。

ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評

結論

全体として、Claude は ChatGPT の強力な競争相手であり、多くの点で改善されています。デモンストレーションとして「憲法上の」原則はありますが、それだけではありません。クロードが不適切なリクエストを拒否する可能性が高いかどうかは、ChatGPT よりも興味深いものです。クロードの文章はより長くなりますが、より自然であり、それ自体を一貫して説明する能力とその制限と目標により、他のトピックに関する質問にもより自然に答えることができるようです。 ChatGPTにはまた強力なライバルがいる？ OpenAIの中核社員が起業、新モデルが好評