GPT-5: 注目したい 4 つの新機能-AI-php.cn

少なくとも、それが私たちが望んでいることです。 GPT-5 の具体的な発売日はありません。私たちが知っていると思っていることのほとんどは、他の情報をつなぎ合わせ、点と点を結びつける試みから得られます。

それでも、期限に関係なく、GPT-5 のリリース時に確認したい重要な機能がいくつかあります。

OpenAI の GPT-5 とは何ですか?

GPT-5 は OpenAI の GPT-4 AI モデルの待望の後継モデルであり、市場で最も強力な生成モデルであると広く期待されています。 GPT-5 の正式なリリース日は現時点ではありませんが、早ければ 2024 年の夏にリリースされる可能性があるという兆候があります。現時点では、モデルに関する詳細はほとんどわかっていませんが、ある程度の情報からいくつかのことが言えます。確実性:

OpenAI は、この名前の商標を米国特許商標庁に申請しました。何人かの OpenAI 幹部が、このモデルの潜在的な機能について議論したり、示唆したりしています。 OpenAI CEOのサム・アルトマン氏は、2024年3月のレックス・フリッドマン氏とのYouTubeインタビューでこのモデルについて繰り返し言及した。

これらはすべて、GPT-5 が登場するという 1 つのエキサイティングな現実を示しています。とはいえ、現時点ではかなり多くのことが推測です。しかし、私たちがこのモデルに期待しており、確信していることがいくつかあります。その一部を以下に示します:

1. さらなるマルチモダリティ

AI モデルの GPT ファミリーに対する最もエキサイティングな改善の 1 つは、マルチモダリティです。わかりやすく言うと、マルチモダリティとは、テキストだけでなく、画像、音声、ビデオなどの他のタイプの入力も処理できる AI モデルの機能です。マルチモダリティは、今後 GPT ファミリのモデルの重要な進歩ベンチマークとなるでしょう。

GPT-4 はすでに画像の入力と出力の処理に熟達しており、オーディオとビデオの処理をカバーする改善が OpenAI の次のマイルストーンであり、GPT-5 は始めるのに適した場所です。 Google は、Gemini AI モデルを使用して、この種のマルチモダリティをすでに本格的に進めています。応答しないのは OpenAI らしくありません。しかし、もちろん、私たちの言葉を鵜呑みにしないでください。 Unconfuse Me ポッドキャスト [PDF トランスクリプト] の中で、Bill Gates 氏は OpenAI CEO の Sam Altman 氏に、今後 2 年間の GPT シリーズのマイルストーンを予想していると尋ねました。彼の最初の答えは？ビデオ処理。

そのため、GPT-5 では、ビデオをプロンプトとしてアップロードしたり、外出先でビデオを作成したり、テキストプロンプトを使用してビデオを編集したり、ビデオからセグメントを抽出したり、大きなビデオファイルから特定のシーンを検索したりするなど、ビデオを操作できるようになることを期待しています。。オーディオファイルに対しても同様のことができるようになる予定です。それは大きな質問です、はい。しかし、AI の開発の速さを考えると、これは非常に合理的な期待です。

2. より大きく効率的なコンテキストウィンドウ

市場で最も洗練された AI モデルの 1 つであるにもかかわらず、AI モデルの GPT ファミリは最小のコンテキストウィンドウの 1 つを備えています。たとえば、Anthropic の Claude 3 は 200,000 トークンのコンテキストウィンドウを誇りますが、Google の Gemini は驚異的な 100 万トークン (標準使用の場合は 128,000) のトークンを処理できます。対照的に、GPT-4 のコンテキストウィンドウは 128,000 トークンと比較的小さく、ChatGPT のようなインターフェイスで使用できる現実的なトークンは約 32,000 以下です。

高度なマルチモダリティが登場すると、コンテキストウィンドウの改善はほぼ避けられません。おそらく 2 倍か 4 倍の増加で十分でしょうが、私たちは 10 倍程度の増加を期待しています。これにより、GPT-5 はより多くの情報をより効率的な方法で処理できるようになります。さて、コンテキストウィンドウが大きいほど必ずしも良いとは限りません。したがって、単にコンテキストウィンドウを増やすのではなく、コンテキスト処理の効率を向上させたいと考えています。

モデルには 100 万トークンのコンテキストウィンドウ (約 700,000 単語の容量) があるかもしれませんが、500,000 単語の本を要約するよう求められた場合、コンテキスト全体を適切に処理できないため、包括的な要約を生成できません。理論上はそうする能力がある。 50万語の本を読めるからといって、その内容をすべて思い出せたり、賢明に処理できるわけではありません。

3. GPT エージェント

おそらく、GPT-5 リリースの最もエキサイティングな可能性の 1 つは、GPT エージェントのデビューです。 AI では「ゲームチェンジャー」という用語がおそらく過剰に使用されていますが、GPT エージェントはあらゆる実際的な意味で真にゲームチェンジャーとなるでしょう。しかし、これはどれほどゲームを変えることになるでしょうか?

現在、GPT-4 などの AI モデルはタスクの完了に役立ちます。彼らはあなたのためにメールを書いたり、冗談を言ったり、数学の問題を解いたり、ブログ記事の下書きを書いたりすることができます。ただし、彼らはその特定のタスクのみを実行でき、ジョブを完了するために必要な一連の関連タスクを完了することはできません。

あなたが Web 開発者だとしましょう。仕事の一環として、設計、コードの作成、トラブルシューティングなど、さまざまな作業を行うことが期待されています。現在、AI モデルに一度に委任できるのは、これらのタスクの一部のみです。おそらく、GPT-4 モデルにホームページ用のコードを書くように依頼し、次に連絡先ページ用にコードを書くように依頼し、次に About ページ用にコードを書くように依頼することができます。これらのタスクを繰り返し完了する必要があります。そして、モデルだけでは完了できないタスクもあります。

AI モデルに特定のサブタスクを要求するこの反復プロセスは、時間がかかり、非効率的です。このシナリオでは、Web 開発者は人間のエージェントとして、関連タスクのセット全体を完了するまで、AI モデルを一度に 1 つずつ調整し、指示する責任を負います。

GPT エージェントは、できれば GPT-5 によって調整された、複雑なタスクのすべてのサブセットに自律的にプロンプトを出して取り組むことができる、専門化されたエキスパートボットを約束します。「自発性」と「自律性」を重視します。

したがって、GPT-5 に GPT Agent が同梱されている場合は、単に「ホームページ用のコードを書いてください」ではなく、「Maxwell Timothy のポートフォリオ Web サイトを構築してください」と依頼できます。 GPT-5 は理論的には、専門の AI エージェントを呼び出して、Web サイトの構築に必要なさまざまなサブタスクを処理することで自己プロンプトを実行できるようになります。 1 つの GPT を呼び出して Maxwell Timothy に関する情報を取得するために Web をスクラップし、別のエージェントを呼び出してさまざまなページのコードを記述し、別のエージェントを呼び出して画像を生成および最適化し、さらに別の AI エージェントを呼び出してサイトを展開する可能性があります。これらすべてを繰り返し人間が行う必要はありません。促す。

4. 幻覚の減少

OpenAI は AI モデルでの幻覚への対処において長い道のりを歩んできましたが、GPT-5 の真のリトマス試験紙は、広範な幻覚を妨げてきた永続的な幻覚問題に対処できるかどうかです。ヘルスケア、航空、サイバーセキュリティなど、一か八かの安全性が重要な分野での AI の導入。これらはすべて、AI の積極的な関与によって大きな利益が得られる分野ですが、現在は大幅な導入を避けています。

明確にするために、この文脈での幻覚とは、AI モデルが、もっともらしいが完全に捏造された情報を高い信頼度で生成および提示する状況を指します。

GPT-4 が患者の症状や医療報告書を分析する診断システムに統合されるシナリオを想像してみてください。幻覚があると、AI が自信を持って誤った診断を下したり、想像上の事実や誤った論理に基づいて潜在的に危険な治療方針を推奨したりする可能性があります。医療分野におけるこのような誤りは、壊滅的な結果をもたらす可能性があります。

同様の留保事項は、航空、原子力、海洋事業、サイバーセキュリティなど、他の重要な分野にも当てはまります。 GPT-5 が幻覚問題を完全に解決するとは期待していませんが、そのような事件の可能性は大幅に減少すると期待しています。

この待望の AI モデルの正式リリースを心待ちにしている中、確かなことが 1 つあります。GPT-5 には、人工知能で可能なことの限界を再定義する可能性があり、人間と機械のコラボレーションと新しい時代の到来をもたらします。革新。

以上がGPT-5: 注目したい 4 つの新機能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。