Claude 3.5 の直接のレビュー: トリックをしたり、医師の診察を受けたり、トリックをしたり、数学の問題を実行したりする場合、GPT-4o は本当に GPT-4o よりも優れていますか?-AI-php.cn

Claude 3.5 の直接のレビュー: トリックをしたり、医師の診察を受けたり、トリックをしたり、数学の問題を実行したりする場合、GPT-4o は本当に GPT-4o よりも優れていますか?

王林

リリース： 2024-06-22 07:46:19

オリジナル

1089 人が閲覧しました

マシンパワーレポート

編集者:ヤン・ウェン

いたずらをしたり、医者に診てもらったり、いたずらをしたり、数学の問題をしたりする「新しい王」クロードの能力は本当にそうですか。神秘的な？

来る、来る、クロード 3.5 ソネットが登場します!

3 か月の休眠期間を経て、つい昨夜、OpenAI の「強力なライバル」Anthropic が新世代モデル -

Claude 3.5 Sonnet を発表しました!

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

この大型モデルの特徴は何ですか?

まず第一に、ニュアンス、ユーモア、複雑な指示をよりよく理解できるようになり、文章の口調がより自然でフレンドリーになります。

Anthropic の最強のビジュアルモデルでもあり、チャートやグラフの解釈、不完全な画像からのテキストの転写などのタスクに優れています。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

さらに、推論、読解、数学、科学、コーディングなどの複数の評価ベンチマークでも非常に優れたパフォーマンスを発揮します。

つまり、公式の紹介によると、Claude 3.5 Sonnet はこれまでで最もスマートなモデルであり、多くの点で GPT-4o を上回っています。

そういえば、礼儀正しくなく、Claude 3.5 Sonnet と GPT-4o を直接競争させて、どちらが優れているかを確認しましょう。

最初のゲーム: マインド・アイズ・エクササイズ

日常生活では、必ず恥ずかしい場面に遭遇します。

例えば、夕食会で、あなたはリーダーがご飯を提供するのを手伝い、リーダーがそれを受け取った後、「そんなにたくさん提供した後、豚に餌をやるのはどうですか？」と言いました。これに対して、心の知能指数が高い人はどう反応しますか。状況？

この問題をこれら 2 つの大きなモデルに投げます。

クロード 3.5 ソネット:

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o:

彼らはあなたにお世辞を言う方法を知っています。

クロード 3.5 は一気に 5 つの例を挙げましたが、2 番目の文「私の視力は十分ではないので、私はあなたを部隊の柱とみなします。」は顔面平手打ちです。

GPT-4o は「世の中のやり方」をよく理解しています。「あなたがこれほど良い体型を維持しているのを見ると、減量のヒントを教えてもらいたくなります。」このお世辞はまさにぴったりです。

Claude 3.5 Sonnet が新しい機能、つまりプロンプトワード再編集機能も開始したことは言及する価値があります。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

ユーザーは、元のプロンプトワードを何度もコピーして貼り付けることなく、直接編集および変更できます。

第2弾：料理からレシピを生成

「トマト入り目玉焼き」の写真をアップし、2人の大きなモデルに製作工程を紹介してもらいました。

クロード 3.5 ソネット:

GPT-4o:

彼らは、材料から手順に至るまで、この古典的な中華料理について多くの経験を持っています、そして最も興味深いのは、両方です彼らのうちの2人は中華料理の本質を「少しだけ」理解していて、酸味のバランスをとるために少量の砂糖を加えることに重点を置いています。

料理に関しては、この 2 つの大型モデルは匹敵します。

3番目のゲーム: 数学の問題を解いてください

公式の評価表では、GPT-4oの数学スコアはClaude 3.5 Sonnetよりわずかに高いです。このうち、GPT-4o は 76.6%、Claude 3.5 Sonnet は 71.1% です。

2024 年の新しい大学入学試験のペーパー I から 2 つの問題を抜粋しました。1 つは多肢選択問題、もう 1 つは解答問題で、これらは次の形式でこれら 2 つの大きなモデルに「供給」されます。ピクチャー。

最初の質問は採点問題で、正解はAです。

Claude 3.5 Sonnet:

GPT-4o:

これら 2 つの大きなモデルは、正しい答えを与えるだけでなく、詳しい情報の問題解決のステップ。

最初の質問をして、解決プロセスを教えてもらいました。

正解は、B=3/πです。

Claude 3.5 Sonnet:

GPT-4o:

実際、この質問は最も基本的な質問ですが、2 つの大きなモデルは「一度の操作で虎のように猛烈です」」と、最終的には間違った答えが与えられました。

さらに面白いのは、この間違った答えは何もないところから生まれたのではなく、一連の推論の後に出てきたものであり、間違いさえ同じだったということです。

数学的能力の点では、これら 2 つの大きなモデルは互角です。

4 番目のゲーム: インターネット上でホットなミームをプレイする

今年、AI ビデオの分野は、Keling、Luma、Jimeng などの新しい「プレイヤー」に参入しただけでなく、あらゆる場所で開花しました。、元AI 動画「ハンドルを握る」滑走路も「王の帰還」。

その結果、ネチズンは今日の主要な AI ビデオアプリケーションの状況をからかうためにこのミームを作成しました。

このミームを 2 つの大きなモデルにそれぞれアップロードし、「この写真は何を意味しますか?」というプロンプトの単語を入力して、画像解釈能力をテストしました。

Claude 3.5 Sonnet:

GPT-4o:

Claude 3.5 Sonnetには、画面のキャラクター、シーン、雰囲気に関して詳細な説明がありますが、そうではありません私はこのミームの意味がわかりませんし、これらの AI ビデオアプリケーションについても知りません。ただ漠然と「これはオンラインコミュニティ、人工知能システム、または仮想空間における権力構造についてのコメントです」と述べただけです。

GPT-4o 見てください。「この写真は、人工知能とクリエイティブツールの分野で認められた Runway の優位性またはリーダーシップを象徴している可能性があります。言及されている他のアプリケーションと比較して、Runway は高く評価されています

」という意味を理解してください。明らかに、このラウンドでは GPT-4o が勝ちます。

第5ラウンド:世界の名画を理解する

私たちは、1873年にピエール・オーギュスト・クーテによって描かれた絵「春の光」を取り出し、その絵を特定して鑑賞してもらいました。

クロード 3.5 ソネット: