首页 > 科技周边 > 人工智能 > 使用OmniparSer V2和Omnitool建立本地视觉代理

使用OmniparSer V2和Omnitool建立本地视觉代理

尊渡假赌尊渡假赌尊渡假赌
发布: 2025-03-03 19:08:11
原创
400 人浏览过

Microsoft的Omniparser V2和Omnitool:用AI

彻底改变GUI自动化

想象AI不仅可以理解,还可以像经验丰富的专业人员一样与Windows 11界面进行互动。 Microsoft的OmniparSer V2和Omnitool使其成为现实,增强了重新定义任务自动化和用户体验的自主GUI代理。本指南提供了建立本地环境并利用其潜力的实际演练,从简化工作流程到解决现实世界中的问题。 准备建立自己的聪明视觉代理吗?让我们开始!

密钥学习目标:

    掌握AI驱动的GUI自动化中OmniparSer V2和Omnitool的核心函数。
  • 掌握了omniparser v2和omnitool的设置和配置,以供本地使用。
  • 使用视觉模型探索AI代理和图形用户界面之间的动态相互作用。
  • 识别OmniparSer V2和Omnitool的现实应用程序在自动化和可访问性中
  • 在部署自治的GUI代理时了解负责任的AI注意事项和风险缓解策略。
  • 目录的
  • 表:

介绍Microsoft Omniparser V2

理解Omnitool
  • omlniparser v2设置
  • >先决条件
  • >安装
    • 验证
    • omnitool设置
    >先决条件
  • VM配置
    • 通过Gradio
    • 运行Omnitool
    • 代理相互作用
    支持的视觉模型
  • 负责AI和风险缓解
  • 现实世界应用
  • 结论
  • 常见问题
  • Microsoft OmniparSer V2:深水潜水
> 检测模块:

一个精心调整的yolov8模型在屏幕截图中标识交互式元素(按钮,图标,菜单)。

    >字幕模块:
  • Florence-2基础模型生成描述性标签,澄清元素函数。
  • 这种组合的方法允许大型语言模型(LLMS)充分了解GUI,从而实现准确的互动和任务完成。 Omniparser V2在其前身方面显着改善,延迟降低了60%,准确性提高,尤其是对于较小的元素。
  • Omnitool:编排
  • Omnitool是一个dockerized Windows系统,将OmniparSer V2与领先的LLM(OpenAI,DeepSeek,Qwen,Anthropic)集成在一起。这种集成促进了AI代理的完全自主行动,从而简化了重复的GUI相互作用。 Omnitool提供了一个安全的沙箱,用于测试和部署代理,确保在现实世界中的效率和安全性。
>

Building a Local Vision Agent using OmniParser V2 and OmniTool

omniparser v2设置指南

>

>充分利用OmniparSer V2,请按照以下步骤:

>先决条件:

    python安装在您的系统上。
  • 通过Conda环境进行的必要依赖性。
>安装:

克隆OmniparSer V2存储库:
    >
  1. 导航到存储库:git clone https://github.com/microsoft/OmniParser
  2. >
  3. 创建并激活一个conda环境:cd OmniParser
  4. > conda create -n "omni" python==3.12使用huggingface-cli:(原始文章中提供的命令)conda activate omni>
  5. >验证:

>启动OmniParser V2服务器,并使用示例屏幕截图进行测试:

python gradio_demo.py

Building a Local Vision Agent using OmniParser V2 and OmniTool Omnitool设置指南Building a Local Vision Agent using OmniParser V2 and OmniTool

>先决条件:

30GB免费磁盘空间(ISO,Docker容器,存储)。 docker桌面安装了。

Windows 11企业评估ISO(重命名为custom.iso并放置在
    >中)。
  • vm配置:
  • OmniParser/omnitool/omnibox/vm/win11iso
>导航到VM管理脚本目录:

> 创建docker容器并安装ISO:

(这可能需要20-90分钟)。
    (用于启动,停止和删除VM的进一步说明是在原始文章中。)
  1. > cd OmniParser/omnitool/omnibox/scripts 通过Gradio运行Omnitool:
    1. 导航到Gradio目录:cd OmniParser/omnitool/gradio
    2. 激活您的conda环境:conda activate omni
    3. 启动服务器:python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
    4. >
    5. >访问终端中显示的URL,输入API键,然后与AI代理进行交互。 确保在单独的终端窗口中运行的所有组件(OmniParser Server,Omnitool VM,Gradio接口)。

    Building a Local Vision Agent using OmniParser V2 and OmniTool Building a Local Vision Agent using OmniParser V2 and OmniToolBuilding a Local Vision Agent using OmniParser V2 and OmniTool (其余部分 - 代理互动,支持的视力模型,负责的AI和风险缓解,现实世界中的应用,结论和常见问题 - 在很大程度上与原始文章不变,并且可以在此处包括。)

以上是使用OmniparSer V2和Omnitool建立本地视觉代理的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板