使用OmniparSer V2和Omnitool建立本地视觉代理-人工智能-PHP中文网

使用OmniparSer V2和Omnitool建立本地视觉代理

尊渡假赌尊渡假赌尊渡假赌

发布： 2025-03-03 19:08:11

原创

400 人浏览过

Microsoft的Omniparser V2和Omnitool：用AI

彻底改变GUI自动化

想象AI不仅可以理解，还可以像经验丰富的专业人员一样与Windows 11界面进行互动。 Microsoft的OmniparSer V2和Omnitool使其成为现实，增强了重新定义任务自动化和用户体验的自主GUI代理。本指南提供了建立本地环境并利用其潜力的实际演练，从简化工作流程到解决现实世界中的问题。准备建立自己的聪明视觉代理吗？让我们开始！

密钥学习目标：

识别OmniparSer V2和Omnitool的现实应用程序在自动化和可访问性中
表：

介绍Microsoft Omniparser V2

理解Omnitool

omlniparser v2设置
>先决条件
>安装
- 验证
- omnitool设置
>先决条件
VM配置
- 通过Gradio
- 代理相互作用
支持的视觉模型
负责AI和风险缓解
现实世界应用
结论
常见问题
Microsoft OmniparSer V2：深水潜水

> 检测模块：

一个精心调整的yolov8模型在屏幕截图中标识交互式元素（按钮，图标，菜单）。

Florence-2基础模型生成描述性标签，澄清元素函数。
Omnitool：编排

Building a Local Vision Agent using OmniParser V2 and OmniTool

omniparser v2设置指南

>充分利用OmniparSer V2，请按照以下步骤：

>先决条件：

通过Conda环境进行的必要依赖性。

>安装：

克隆OmniparSer V2存储库：

导航到存储库：git clone https://github.com/microsoft/OmniParser
创建并激活一个conda环境：cd OmniParser
> conda create -n "omni" python==3.12使用huggingface-cli：（原始文章中提供的命令）conda activate omni>
>验证：

>启动OmniParser V2服务器，并使用示例屏幕截图进行测试：

python gradio_demo.py

Building a Local Vision Agent using OmniParser V2 and OmniTool Omnitool设置指南

>先决条件：

30GB免费磁盘空间（ISO，Docker容器，存储）。 docker桌面安装了。

Windows 11企业评估ISO（重命名为custom.iso并放置在

OmniParser/omnitool/omnibox/vm/win11iso

>导航到VM管理脚本目录：

> 创建docker容器并安装ISO：

（这可能需要20-90分钟）。

> cd OmniParser/omnitool/omnibox/scripts 通过Gradio运行Omnitool：
1. 导航到Gradio目录：cd OmniParser/omnitool/gradio
2. 激活您的conda环境：conda activate omni
3. 启动服务器：python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
4. >访问终端中显示的URL，输入API键，然后与AI代理进行交互。确保在单独的终端窗口中运行的所有组件（OmniParser Server，Omnitool VM，Gradio接口）。
（其余部分 - 代理互动，支持的视力模型，负责的AI和风险缓解，现实世界中的应用，结论和常见问题 - 在很大程度上与原始文章不变，并且可以在此处包括。）

以上是使用OmniparSer V2和Omnitool建立本地视觉代理的详细内容。更多信息请关注PHP中文网其他相关文章！