AI开源项目:NavAIGuide-TS



前一段时间爆火的 AI 硬件 Rabbit R1,其实理论上来说基于GPT-4V视觉模型,是可以基于手机实现的。而这个项目就是一个尝试,实现了大语言视觉模型操作你的手机,包括内部的 App。


技术实现上,它借助了手机的自动化测试工具Appium来让大语言模型和手机交互。


但这个项目的问题也很明显,就是整个环境的设置过于复杂,需要专业手机开发才能运行,并且还需要开发证书。


依然是个很不错的尝试👍🏻


项目地址:https://github.com/francedot/NavAIGuide-TS

详细说明:https://medium.com/@francedot/ios-ui-focused-agents-in-the-era-of-multi-modal-generative-ai-1f2097fa8ba6


想象一下,如果语言模型可以进入 iPhone 的应用程序生态系统。如果我们只是允许一个模型来编排我们现有的(并且多年来稳健的)用户界面,那么对插件和助手的需求是否会变得过时?


这证明了 GPT-4V 作为通用移动 AI 代理的出色程度 - 无需任何微调或基础,仅通过与启用 JSON 模式的文本模型集成即可。

建议观看此演示,了解(可能)令人惊叹的因素以及使用 NavAIGuide 在 iOS 17 上的结果,


NavAIGuide 是 LLMs 的移动和 Web 导航代理框架: https://github.com/francedot/NavAIGuide-TS 


新视频:https://youtu.be/dgFTUm844-Y

留言