AI开源项目：NavAIGuide-TS

前一段时间爆火的 AI 硬件 Rabbit R1，其实理论上来说基于GPT-4V视觉模型，是可以基于手机实现的。而这个项目就是一个尝试，实现了大语言视觉模型操作你的手机，包括内部的 App。

技术实现上，它借助了手机的自动化测试工具Appium来让大语言模型和手机交互。

但这个项目的问题也很明显，就是整个环境的设置过于复杂，需要专业手机开发才能运行，并且还需要开发证书。

依然是个很不错的尝试👍🏻

想象一下，如果语言模型可以进入 iPhone 的应用程序生态系统。如果我们只是允许一个模型来编排我们现有的（并且多年来稳健的）用户界面，那么对插件和助手的需求是否会变得过时？

这证明了 GPT-4V 作为通用移动 AI 代理的出色程度 - 无需任何微调或基础，仅通过与启用 JSON 模式的文本模型集成即可。

建议观看此演示，了解（可能）令人惊叹的因素以及使用 NavAIGuide 在 iOS 17 上的结果，

NavAIGuide 是 LLMs 的移动和 Web 导航代理框架： https://github.com/francedot/NavAIGuide-TS

Tarogo Gugu Bloger