使用Gemini 2.0 Pro构建多模式AI应用程序-人工智能-PHP中文网

首页

科技周边

人工智能

使用Gemini 2.0 Pro构建多模式AI应用程序

Jennifer Aniston

Feb 28, 2025 pm 04:37 PM

Google的Gemini 2.0 Pro：深入深入了解多模式AI功能和部署

Google已揭露了Gemini 2.0 Pro，这是其最先进的AI模型。目前处于实验阶段，开发人员的访问是通过API访问。这个强大的模型在编码和复杂的推理方面闪耀，拥有200万个令牌上下文窗口，用于处理广泛的信息。它利用Google搜索和执行代码的能力增加了其多功能性。

>本教程演示了如何使用Google的genai python软件包访问Gemini 2.0 Pro的功能，构建用户友好的Gradio应用程序，并将其部署到拥抱面部空间以供公共访问。有关针对OpenAI和DeepSeek模型的比较分析，请参见我们关于Gemini 2.0 Flash Thinking实验的指南。阿德尔·尼姆（Adel Nehme）的教程提供了进一步的见解，以使用双子座2.0：

构建多模式应用程序。

设置GEMINI 2.0 Pro > >访问Gemini 2.0 Pro的访问是通过Google AI Studio，需要Google帐户。

> Google AI Studio登录：
访问Google AI Studio网站并登录。>
导航到仪表板，找到并单击“获取API键”，然后是“创建API键”。

来源：Google AI Studio

>环境变量：

python软件包安装：GEMINI_API_KEY安装所需的软件包：

探索双子座2.0 Pro功能

>让我们利用Gemini Python客户端探索其功能：文本，图像，音频和文档处理以及代码执行。

>文本生成：>以下代码段使用用于实时反馈的流响应的文本生成：

pip install google-genai gradio

> 图像理解：使用枕头，我们可以处理图像：

import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")

音频理解： gemini 2.0 pro直接处理音频：

from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")

文档理解：>直接处理没有兰链或抹布的PDF：

with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")

>代码生成和执行： gemini 2.0 Pro的出色功能是其在API中生成和执行代码的能力：>

（注意：Gradio应用程序，图像显示和详细错误处理的完整代码，都在原始文本中提到的GitHub存储库中可用。此响应是一个凝结版本，以供清晰。

from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")

构建和部署Gradio应用程序>

提供的GitHub存储库（Gemini-2-Pro-Chat）包含Gradio应用程序代码。克隆和设置环境后，本地运行

。部署到拥抱面积的空间涉及创建一个新的空间，克隆存储库，添加> file（包含），按照指示进行修改

并推动更改。切记在拥抱的面部空间设置中添加您的

作为秘密。python app.py> requirements.txtgoogle-genai==1.0.0结论README.mdGEMINI_API_KEY gemini 2.0 Pro简化了高性能AI应用程序的创建。它的多模式功能和代码执行功能是游戏改变者。虽然目前有使用使用限制，但请记住遵守Google的服务条款。本教程提供了一份综合指南，以利用其权力并将应用程序部署到云中。

以上是使用Gemini 2.0 Pro构建多模式AI应用程序的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn