Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

以下内容来自原文的翻译：

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2，一款通过多智能体协作实现有效导航的移动设备操作助手，它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能，让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机，从而执行各种任务。

移动设备操作任务日益成为流行的多模态人工智能应用场景。当前的多模态大语言模型（MLLM）受训练数据的限制，缺乏有效充当操作助手的能力。
相反，基于MLLM的代理，通过工具调用来增强能力，正在逐渐应用于该场景。
然而，移动设备操作任务中的两大导航挑战，任务进度导航和焦点内容导航，在现有工作的单代理架构下变得非常复杂。这是由于过长的令牌序列和交错的文本图像数据格式限制了性能。
为了有效地解决这些导航挑战，我们提出了 Mobile-Agent-v2，一种用于移动设备操作辅助的多代理架构。
该架构包括三个代理：规划代理、决策代理和反思代理。
规划代理生成任务进度，使历史操作的导航更加高效。为了保留焦点内容，我们设计了一个随任务进度更新的记忆单元。
此外，为了纠正错误的操作，反射代理会观察每个操作的结果并相应地处理任何错误。
实验结果表明，与 Mobile-Agent 的单代理架构相比，Mobile-Agent-v2 的任务完成率提高了 30% 以上。该代码在此 https URL 上开源

如果想详细了解，可以点开视频下方的链接。
谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

论文：https://arxiv.org/abs/2406.01014
Github：https://github.com/X-PLUG/MobileAgent

油管：https://youtu.be/NqZSXmVYTQs

Tarogo Gugu Bloger

搜尋此網誌

Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

留言

發佈留言