首頁 > 科技週邊 > 人工智慧 > 使用Gemini 2.0 Pro構建多模式AI應用程序

使用Gemini 2.0 Pro構建多模式AI應用程序

Jennifer Aniston
發布: 2025-02-28 16:37:10
原創
164 人瀏覽過

Google的Gemini 2.0 Pro:深入深入了解多模式AI功能和部署

Google已揭露了Gemini 2.0 Pro,這是其最先進的AI模型。 目前處於實驗階段,開發人員的訪問是通過API訪問。 這個強大的模型在編碼和復雜的推理方面閃耀,擁有200萬個令牌上下文窗口,用於處理廣泛的信息。 它利用Google搜索和執行代碼的能力增加了其多功能性。

>

>本教程演示瞭如何使用Google的genai python軟件包訪問Gemini 2.0 Pro的功能,構建用戶友好的Gradio應用程序,並將其部署到擁抱面部空間以供公共訪問。 有關針對OpenAI和DeepSeek模型的比較分析,請參見我們關於Gemini 2.0 Flash Thinking實驗的指南。 阿德爾·尼姆(Adel Nehme)的教程提供了進一步的見解,以使用雙子座2.0:

構建多模式應用程序。

設置GEMINI 2.0 Pro > >訪問Gemini 2.0 Pro的訪問是通過Google AI Studio,需要Google帳戶。

  1. > Google AI Studio登錄:

    訪問Google AI Studio網站並登錄。 >

  2. API密鑰生成:
  3. 導航到儀表板,找到並單擊“獲取API鍵”,然後是“創建API鍵”。

Building Multimodal AI Application with Gemini 2.0 Pro 來源:Google AI Studio

>

>環境變量:
    將環境變量設置為新生成的密鑰。 >
  1. python軟件包安裝:GEMINI_API_KEY安裝所需的軟件包:

  2. 探索雙子座2.0 Pro功能

>讓我們利用Gemini Python客戶端探索其功能:文本,圖像,音頻和文檔處理以及代碼執行。
  1. >文本生成:>以下代碼段使用用於實時反饋的流響應的文本生成:
pip install google-genai gradio
登入後複製
  1. > 圖像理解:使用枕頭,我們可以處理圖像:
import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")
登入後複製
  1. 音頻理解: gemini 2.0 pro直接處理音頻:
from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")
登入後複製
  1. 文檔理解:>直接處理沒有蘭鍊或抹布的PDF:
with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")
登入後複製
  1. >代碼生成和執行: gemini 2.0 Pro的出色功能是其在API中生成和執行代碼的能力:>
(注意:Gradio應用程序,圖像顯示和詳細錯誤處理的完整代碼,都在原始文本中提到的GitHub存儲庫中可用。此響應是一個凝結版本,以供清晰。
from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")
登入後複製
>

構建和部署Gradio應用程序>

提供的GitHub存儲庫(Gemini-2-Pro-Chat)包含Gradio應用程序代碼。 克隆和設置環境後,本地運行

。 部署到擁抱面積的空間涉及創建一個新的空間,克隆存儲庫,添加> file(包含),按照指示進行修改

並推動更改。 切記在擁抱的面部空間設置中添加您的

作為秘密。 python app.py> requirements.txtgoogle-genai==1.0.0結論README.mdGEMINI_API_KEY gemini 2.0 Pro簡化了高性能AI應用程序的創建。 它的多模式功能和代碼執行功能是遊戲改變者。 雖然目前有使用使用限制,但請記住遵守Google的服務條款。 本教程提供了一份綜合指南,以利用其權力並將應用程序部署到雲中。

以上是使用Gemini 2.0 Pro構建多模式AI應用程序的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板