Mobile-Agent-v2:让AI可以像真人一样来操控你的手机执行各种任务

 




以下内容来自原文的翻译:

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2,一款通过多智能体协作实现有效导航的移动设备操作助手,它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能,让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机,从而执行各种任务。

移动设备操作任务日益成为流行的多模态人工智能应用场景。当前的多模态大语言模型(MLLM)受训练数据的限制,缺乏有效充当操作助手的能力。
相反,基于MLLM的代理,通过工具调用来增强能力,正在逐渐应用于该场景。
然而,移动设备操作任务中的两大导航挑战,任务进度导航和焦点内容导航,在现有工作的单代理架构下变得非常复杂。这是由于过长的令牌序列和交错的文本图像数据格式限制了性能。
为了有效地解决这些导航挑战,我们提出了 Mobile-Agent-v2,一种用于移动设备操作辅助的多代理架构。
该架构包括三个代理:规划代理、决策代理和反思代理。
规划代理生成任务进度,使历史操作的导航更加高效。为了保留焦点内容,我们设计了一个随任务进度更新的记忆单元。
此外,为了纠正错误的操作,反射代理会观察每个操作的结果并相应地处理任何错误。
实验结果表明,与 Mobile-Agent 的单代理架构相比,Mobile-Agent-v2 的任务完成率提高了 30% 以上。该代码在此 https URL 上开源

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

论文:https://arxiv.org/abs/2406.01014
Github:https://github.com/X-PLUG/MobileAgent

油管:https://youtu.be/NqZSXmVYTQs

留言