UFO:由微软开发的专注于Windows操作系统交互的UI代理





它可以通过理解用户的自然语言指令和屏幕的视觉内容,自动执行一系列复杂的任务。


比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。


它结合了GPT 4-V,能够理解和Windows应用程序的图形用户界面(GUI)并执行操作。


UFO能够在Windows应用程序中执行各种操作,如点击按钮、填写表单、浏览文件等,就好像一个人在使用鼠标和键盘操作电脑一样。


视频演示为:删除PowerPoint演示文稿上的所有注释。


## 主要能力:


1、跨应用程序操作:UFO能够在Windows操作系统中的多个应用程序之间无缝导航和操作。这意味着它可以根据任务需求,在不同的应用程序中执行一系列动作,如从Word文档提取信息,然后使用这些信息在Outlook中撰写并发送电子邮件。


2、自然语言命令执行:用户可以通过自然语言指令告诉UFO需要完成的任务。UFO理解这些指令,并将它们转换为具体的GUI操作,无需用户手动干预。


3、自动化控制交互:UFO包含一个控制交互模块,能够将视觉模型识别的动作转化为对应用程序控件的实际操作。这个功能使UFO能够在应用程序中自动点击按钮、输入文本等。


4、应用程序选择:UFO采用双代理框架中的应用程序选择代理(AppAgent)来决定哪个应用程序最适合完成用户的请求。这包括在任务需要时切换到不同的应用程序。


5、动作选择与执行:动作选择代理(ActAgent)负责在选定的应用程序中选择并执行具体的动作,直到任务完成。它利用屏幕截图和控件信息来确定下一步的最佳操作。


6、多模态输入处理:UFO能够处理和解析图像(屏幕截图)和文本信息,以理解当前的GUI状态并作出决策。


7、自定义任务和控件:UFO高度可扩展,允许用户设计和自定义特定任务的动作和控件,增强了其在不同应用程序和使用场景下的通用性和灵活性。


## 工作原理:


UFO(UI-Focused Agent)的工作原理基于先进的视觉语言模型技术,特别是GPT-Vision,以及一个独特的双代理框架,使其能够理解和执行Windows操作系统中的图形用户界面(GUI)任务。以下是UFO工作原理的详细解释:


1、双代理框架


双代理架构:UFO由两个主要代理组成,AppAgent和ActAgent,分别负责应用程序的选择与切换,以及在这些应用程序内执行具体动作。


应用程序选择代理(AppAgent):负责决定为了完成用户请求需要启动或切换到哪个应用程序。它通过分析用户的自然语言指令和当前桌面的屏幕截图来做出选择。一旦确定了最适合的应用程序,AppAgent会制定一个全局计划来指导任务的执行。


动作选择代理(ActAgent):一旦选择了应用程序,ActAgent就会在该应用程序中执行具体的操作,如点击按钮、输入文本等。ActAgent利用应用程序的屏幕截图和控件信息来决定下一步最合适的操作,并通过控制交互模块将这些操作转化为对应用程序控件的实际动作。


2、 控制交互模块


UFO的控制交互模块是将代理识别的动作转换为应用程序中实际执行的关键组成部分。这个模块使UFO能够直接与应用程序的GUI元素进行交互,执行如点击、拖动、文本输入等操作,而无需人工干预。


3、多模态输入处理


UFO能够处理多种类型的输入,包括文本(用户的自然语言指令)和图像(应用程序的屏幕截图)。这使UFO能够理解当前GUI的状态、可用控件和它们的属性,从而做出准确的操作决策。


4、用户请求解析


当接收到用户的自然语言指令时,UFO首先解析这些指令,以确定用户的意图和所需完成的任务。然后,它将这个任务分解成一系列子任务或操作步骤,这些步骤被AppAgent和ActAgent按顺序执行。


5、应用程序间的无缝切换


如果完成用户请求需要多个应用程序的操作,UFO能够在这些应用程序之间无缝切换。它通过AppAgent来决定何时以及如何切换应用程序,并通过ActAgent在每个应用程序中执行具体的操作。


6、自然语言命令到GUI操作的映射


UFO的核心功能之一是将用户的自然语言命令映射到具体的GUI操作上。这一过程涉及到理解命令的意图,识别相关的GUI元素,以及生成和执行操作这些元素的动作。


通过这种方式,UFO可以自动完成从文档编辑和信息提取到电子邮件撰写和发送等一系列复杂的任务,大大提高用户在Windows操作系统中工作的效率和便捷性。


GitHub:https://github.com/microsoft/UFO

论文:https://arxiv.org/abs/2402.07939


## 案例展示:使用多个来源的文本来撰写一封电子邮件。

在此示例中,UFO能够在Word、图片查看器、电子邮件客户端等多个应用程序之间无缝切换和操作,展现了其处理跨应用程序任务的能力。

展示了UFO 跨应用程序体验的多功能性和效率!


视频:https://youtu.be/iHV2948N1FA

留言