使用Gemini 2.0 Pro構建多模式AI應用程序-人工智慧-PHP中文網

使用Gemini 2.0 Pro構建多模式AI應用程序

Jennifer Aniston

發布： 2025-02-28 16:37:10

原創

164 人瀏覽過

Google的Gemini 2.0 Pro：深入深入了解多模式AI功能和部署

Google已揭露了Gemini 2.0 Pro，這是其最先進的AI模型。目前處於實驗階段，開發人員的訪問是通過API訪問。這個強大的模型在編碼和復雜的推理方面閃耀，擁有200萬個令牌上下文窗口，用於處理廣泛的信息。它利用Google搜索和執行代碼的能力增加了其多功能性。

>本教程演示瞭如何使用Google的genai python軟件包訪問Gemini 2.0 Pro的功能，構建用戶友好的Gradio應用程序，並將其部署到擁抱面部空間以供公共訪問。有關針對OpenAI和DeepSeek模型的比較分析，請參見我們關於Gemini 2.0 Flash Thinking實驗的指南。阿德爾·尼姆（Adel Nehme）的教程提供了進一步的見解，以使用雙子座2.0：

構建多模式應用程序。

設置GEMINI 2.0 Pro > >訪問Gemini 2.0 Pro的訪問是通過Google AI Studio，需要Google帳戶。

> Google AI Studio登錄：
訪問Google AI Studio網站並登錄。 >
導航到儀表板，找到並單擊“獲取API鍵”，然後是“創建API鍵”。

來源：Google AI Studio

>環境變量：

python軟件包安裝：GEMINI_API_KEY安裝所需的軟件包：

探索雙子座2.0 Pro功能

>讓我們利用Gemini Python客戶端探索其功能：文本，圖像，音頻和文檔處理以及代碼執行。

>文本生成：>以下代碼段使用用於實時反饋的流響應的文本生成：

pip install google-genai gradio

登入後複製

> 圖像理解：使用枕頭，我們可以處理圖像：

import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")

登入後複製

音頻理解： gemini 2.0 pro直接處理音頻：

from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")

登入後複製

文檔理解：>直接處理沒有蘭鍊或抹布的PDF：

with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")

登入後複製

>代碼生成和執行： gemini 2.0 Pro的出色功能是其在API中生成和執行代碼的能力：>

（注意：Gradio應用程序，圖像顯示和詳細錯誤處理的完整代碼，都在原始文本中提到的GitHub存儲庫中可用。此響應是一個凝結版本，以供清晰。

from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")

登入後複製

構建和部署Gradio應用程序>

提供的GitHub存儲庫（Gemini-2-Pro-Chat）包含Gradio應用程序代碼。克隆和設置環境後，本地運行

。部署到擁抱面積的空間涉及創建一個新的空間，克隆存儲庫，添加> file（包含），按照指示進行修改

並推動更改。切記在擁抱的面部空間設置中添加您的

作為秘密。 python app.py> requirements.txtgoogle-genai==1.0.0結論README.mdGEMINI_API_KEY gemini 2.0 Pro簡化了高性能AI應用程序的創建。它的多模式功能和代碼執行功能是遊戲改變者。雖然目前有使用使用限制，但請記住遵守Google的服務條款。本教程提供了一份綜合指南，以利用其權力並將應用程序部署到雲中。

以上是使用Gemini 2.0 Pro構建多模式AI應用程序的詳細內容。更多資訊請關注PHP中文網其他相關文章！