GPT-5：我們希望看到的 4 個新功能-人工智慧-PHP中文網

至少，這是我們所希望的。 GPT-5 沒有具體的發布日期，我們認為我們所知道的大部分資訊都來自拼湊其他資訊並試圖將各個點連接起來。

儘管如此，無論截止日期為何，我們希望在 GPT-5 發佈時看到一些關鍵功能。

OpenAI 的 GPT-5 是什麼？

GPT-5 是備受期待的 OpenAI GPT-4 AI 模型的繼任者，人們普遍認為該模型將成為市場上最強大的生成模型。雖然目前還沒有 GPT-5 的官方發布日期，但有跡象表明它最早可能會在 2024 年夏天發布。 ## OpenAI 已向美國專利商標局申請了該名稱的商標。幾位 OpenAI 主管已經討論或暗示了該模型的可能功能。 OpenAI 執行長 Sam Altman 在 2024 年 3 月接受 Lex Fridman 的 YouTube 採訪時多次提到該模型。

這些都指向一個令人興奮的現實：GPT-5 即將到來！也就是說，目前很多事情都只是猜測。但我們希望在模型中看到一些東西，並且相當有信心看到這些東西。以下是其中的一些：

1. 更多多模態

GPT 人工智慧模型系列最令人興奮的改進之一就是多模態。為了清楚起見，多模態是指人工智慧模型不僅能夠處理文本，還能夠處理圖像、音訊和視訊等其他類型輸入的能力。多模態將成為 GPT 系列模型未來的重要進步基準。

GPT-4 已經擅長處理影像輸入和輸出，音訊和視訊處理的改進是 OpenAI 的下一個里程碑，而 GPT-5 是一個很好的起點。谷歌已經透過其 Gemini AI 模型在這種多模態方面取得了重大進展。不做出回應是 OpenAI 的一貫做法。但是，當然，不要相信我們的話。在他的 Unconfuse Me 播客 [PDF 文字記錄] 中，比爾蓋茲 (Bill Gates) 詢問 OpenAI 執行長 Sam Altman，他預計 GPT 系列在未來兩年將實現哪些里程碑。他的第一個答案？視訊處理。

因此，對於 GPT-5，我們希望能夠使用影片 — 根據提示上傳影片、隨時隨地建立影片、使用文字提示編輯影片、從影片中提取片段以及從大型影片檔案尋找特定場景。我們希望能夠對音訊檔案執行類似的操作。這是一個很大的問題，是的。但考慮到人工智慧的發展速度，這是一個非常合理的預期。

2. 更大、更有效率的上下文視窗

儘管GPT 系列AI 模型是市場上最複雜的AI 模型之一，但它是最小的上下文視窗之一。例如，Anthropic 的 Claude 3 擁有 200,000 個令牌的上下文窗口，而 Google 的 Gemini 可以處理驚人的 100 萬個令牌（標準使用為 128,000 個）。相較之下，GPT-4 的上下文視窗相對較小，只有 128,000 個令牌，實際可用於 ChatGPT 等介面的令牌約為 32,000 個或更少。

隨著先進的多模態技術的出現，改進的上下文視窗幾乎是不可避免的。也許增加兩到四倍就足夠了，但我們希望看到大約十倍的增長。這將使 GPT-5 能夠以更有效的方式處理更多資訊。現在，更大的上下文視窗並不總是意味著更好。因此，我們希望看到上下文處理效率的提高，而不僅僅是增加上下文視窗。

你看，一個模型可能有100 萬個token 上下文視窗（大約70 萬個單字的容量），但當被要求總結一本50 萬個單字的書時，它無法產生全面的摘要，因為它無法充分處理整個內容儘管理論上有能力這樣做。你能讀一本50萬字的書並不代表你能回憶起其中的所有內容或明智地處理它。

3. GPT Agents

也許 GPT-5 版本中最令人興奮的可能性之一就是 GPT Agents 的首次亮相。雖然「遊戲規則改變者」這個詞在人工智慧中可能被過度使用，但 GPT 代理在各個實際意義上都將真正成為遊戲規則改變者。但這將如何改變遊戲規則呢？

目前，像 GPT-4 這樣的 AI 模型可以幫助你完成任務。他們可以為您寫電子郵件、講笑話、解決數學問題或起草部落格文章。但是，他們只能執行該特定任務，而無法完成完成您的工作所需的一組相關任務。

假設您是一名 Web 開發人員。作為工作的一部分，您需要做很多事情：設計、編寫程式碼、排除故障等等。目前，您一次只能將其中一部分任務委託給 AI 模型。也許您可以要求 GPT-4 模型為主頁編寫程式碼，然後要求它為聯絡頁面編寫程式碼，然後為「關於」頁面編寫程式碼，等等。有些任務是模型根本無法完成的。

這種提示 AI 模型執行特定子任務的迭代過程既耗時又低效。在這種情況下，您（Web 開發人員）是負責協調和提示 AI 模型一次執行一項任務的人工代理，直到您完成一整套相關任務。

GPT Agents 承諾由 GPT-5 協調的專業專家機器人能夠自我提示並自主處理複雜任務的所有子集。強調「自我提示」和「自主」。

因此，如果 GPT-5 附帶 GPT Agent，您可以要求它“為 Maxwell Timothy 建立一個投資組合網站”，而不僅僅是“為我編寫主頁程式碼”。理論上，GPT-5 能夠透過呼叫專家人工智慧代理來進行自我提示，以處理建立網站所需的各種子任務。它可能會調用一個GPT 來獲取有關Maxwell Timothy 的網絡信息，調用另一個代理來為不同頁面編寫代碼，另一個代理來生成和優化圖像，甚至調用另一個AI 代理來部署網站，所有這些都不需要重複的人工操作。