这项由OPPO AI中心Multi-X团队完成的技术研究发布于2026年5月,论文编号为arXiv:2605.05765,感兴趣的读者可通过该编号查阅完整原文。
手机已经变成了我们身体的一部分——它承载着我们的购物习惯、出行记录、照片回忆,甚至我们每天的喜怒哀乐。然而,绝大多数时候,手机对我们来说依然只是一块被动响应触摸的屏幕,而不是一个真正懂我们的伙伴。你有没有遇到过这样的场景:拿着一瓶饮料想在网上比价,却要先打开App,再手动输入名字,再搜索,再对比价格——明明手机摄像头就对着那瓶饮料,却什么忙都帮不上?
OPPO AI中心的研究团队正是从这类日常痛点出发,构建了一个名为X-OmniClaw的移动端智能代理系统。这套系统的核心理念,可以用一个比喻来理解:如果说过去的手机助手是一个只会接电话的前台,那么X-OmniClaw就是一个随时在场、能看会听、有记忆、能主动出手帮你办事的全能管家。这位管家不住在远端的云端服务器里,而是就在你的手机上,时时刻刻感知你周围的世界,记住你的喜好,并在你需要时精准执行任务。
一、为什么手机需要这样一位"全能管家"
在正式介绍这套系统的工作方式之前,有必要先聊聊它的来历和它试图解决的根本问题。
目前市面上已有一些AI手机助手,比如豆包手机(Doubao Phone)这类产品,验证了"用AI跨App完成任务"在技术上是可行的。但这类方案大多依赖于在远程数据中心运行一个"虚拟手机",你发出的每个指令都要绕一大圈才能被执行。这就好比你让一个远在另一个城市的人帮你开窗户——他必须先看到你家的实时画面,再遥控一台机器人去操作,不仅慢,而且他根本没办法感知到你家的实际温度、光线,更不知道你家里放着什么私人物品。
另一类开源框架,比如OpenClaw,在PC端做得不错,让开发者可以自己定制AI代理的行为逻辑。但PC端的使用场景和手机端差异极大——手机是移动的、实时的、高度个人化的。你在街上拍到一件衣服时,手机助手没办法帮你实时判断该去哪里比价;你刚从旅行回来,助手也不知道你相册里哪些照片是在哪里拍的、主题是什么。
X-OmniClaw的目标,就是把这两类方案的优点合并起来,同时绕开它们的核心缺陷。这套系统直接运行在用户的安卓手机上,核心感知和执行能力都在本地完成,只有需要复杂推理时才向云端语言模型请求"燃料"。打个比方,手机是车,X-OmniClaw是车里的发动机和传感器系统,而云端的大语言模型只是加油站——车主要靠自己跑,偶尔去加个油。
这套系统由三个紧密配合的模块构成,分别是Omni Perception(全感知)、Omni Memory(全记忆)和Omni Action(全行动)。这三个模块不是各自独立运转的,而是像人的眼耳、大脑记忆和双手一样,协同工作,共同支撑起这位"全能管家"的日常运转。接下来,我们一个一个地把它们拆开来看。
二、全感知:这位管家是怎么"看"、"听"、"感知世界"的
假设你是一个新来的保姆,第一天上班时你需要同时关注很多事情:雇主在说什么(语音)、厨房里正在发生什么(摄像头视角)、手边的备忘录写了什么(屏幕内容)。如果这三件事你只能盯着一件,另外两件就会遗漏关键信息。X-OmniClaw的Omni Perception模块,解决的正是这个"同时关注多个信息来源"的问题。
系统建立了一个统一的信息入口,就像一个公司的前台,所有来自不同渠道的"客人"都从同一扇门进来。这些"客人"可以是用户直接在App内发出的操作,可以是点击屏幕悬浮按钮的触发,可以是对着麦克风说的一句话,也可以是提前定好的定时任务,甚至还可以来自飞书、Discord等外部平台发过来的消息。不管信息从哪里来,系统都把它归入同一套处理流程。
对于需要定时执行的任务,系统还专门利用了安卓系统自带的AlarmManager功能,在手机待机甚至低电量状态下也能被"唤醒",不会因为手机熄屏就错过触发时机。这就好比给管家设了一个不会因为打盹而失效的闹钟。
在感知层面,系统同时整合了三条信息通道。第一条是摄像头画面,代表管家的"眼睛",能看到真实世界里的物体。第二条是屏幕内容,代表管家对手机界面的"阅读能力",知道当前App里显示的是什么。第三条是麦克风输入,代表管家的"耳朵",能实时把你说的话转成文字。
这里有一个特别实际的技术细节:手机在播放音乐或视频时,麦克风会同时收到外部声音和设备自己发出的声音,这两者混在一起会让语音识别出错,就像你在嘈杂的KTV里打电话一样。系统专门加入了一套叫做"自适应声学回声消除"(AEC)的技术,在采集声音时主动把设备自己播放的声音过滤掉,确保收到的是干净的用户指令。
这三路信号在采集后并不是简单地排成队等待处理,而是通过一个"去耦合流式管道"来协调。摄像头和屏幕画面会被异步推送进一个内存环形缓冲区,像一个会自动更新的短期记忆,保存最近一段时间的视觉历史。与此同时,一个"时间对齐模块"负责把语音和视觉信号通过时间戳精准地对齐——确保你说"这个多少钱"的那一刻,系统知道你当时的摄像头正对着什么。
当这些多模态信息进入系统后,并不会直接触发后续的操作。系统会先用一个视觉语言模型(VLM,可以理解为一个既能看图又能读文字的AI大脑)来解读当前场景,并结合用户的问题,生成一个更完整的"意图理解"。如果问题的答案可以直接从当前画面中得出,系统就直接回答。如果问题需要进一步的操作,系统就会把解析后的意图转化成一个结构化的任务描述,交给后续的执行模块去处理。
举个具体的例子来理解这个流程:当用户把摄像头对着一瓶依云喷雾水,问"这个在淘宝上多少钱",系统不会直接去淘宝搜索"这个"——因为它不知道"这个"是什么。相反,系统会先从画面中识别出这是一瓶依云喷雾水,然后把用户的问题重新表述为"用户想知道依云喷雾水在淘宝上的价格",再去执行搜索操作。这个"先理解再行动"的机制,让系统的反应更贴近人类助理的工作方式,而不是一个字面执行命令的机器人。
三、全记忆:管家是如何"记住你"的
一个好管家和一个普通雇员之间,最大的区别往往不在于能力,而在于记忆。好管家知道你喜欢喝什么茶,知道你上周提过要找的那张旧照片在哪个文件夹,知道你正在进行的任务昨天做到哪一步了。X-OmniClaw的Omni Memory模块,试图让手机助手拥有这种层次丰富的记忆能力。
这套记忆系统分成两个层次,类似于人类的"工作记忆"和"长期记忆"。
工作记忆负责处理当前正在进行的任务。当用户在多个App之间切换、执行一系列相关操作时,系统会持续保存一个多模态的运行时上下文。这个上下文不只是文字聊天记录,而是包含了截图(作为视觉证据)、压缩过的语义摘要(作为对当前状态的精炼理解)、以及任务进度记录。这就好比管家在手边放了一个随时更新的备忘板,记录着"我们现在做到第几步了,上一步的结果是什么,下一步应该怎么做"。有了这个机制,即使用户中途接了个电话或者切换到另一个App,任务也不会"断片"——系统能够无缝地从上次停下来的地方继续。
长期记忆则负责沉淀和复用跨任务的个人知识。系统会从用户手机上的本地数据中提炼出有价值的信息,包括照片、历史操作轨迹、任务相关的元数据等,并将这些信息转化为持久保存的"记忆档案"和"用户画像"。这些沉淀下来的信息可以被注入到后续的推理和交互过程中,让系统能够给出更个性化的回应,而不需要每次都从零开始重建用户的偏好和背景。
以手机相册为例来理解这个机制:系统不会每次需要找照片时都去扫描整个相册,而是事先把相册里的照片转化为紧凑的语义记录,每条记录描述了照片中的物体、场景、事件和用户相关的线索。这样当用户说"找一下我上次去海边的照片"时,系统可以直接检索这些语义记录,精准定位,而不是让用户自己慢慢翻。
在实现层面,这套记忆能力通过"技能与工具"的分工协作来落地。"技能"定义了工作流程——哪些技能负责记忆的建立(比如同步、更新、重建),哪些技能负责记忆的使用(比如问答、检索、基于记忆的操作)。"工具"则是执行具体步骤的执行者。两者各司其职,分工清晰,这样当系统需要迭代改进时,不会牵一发而动全身。
在图片处理时,系统优先使用多模态模型进行语义摘要;如果模型调用失败,系统会降级到从图片的元数据(比如拍摄时间、地点标签)提取简化摘要,确保整个流程能够持续运转而不是因为某个环节出错就全部卡死。
在隐私保护方面,系统在把任何内容写入长期记忆之前,都会先经过一个统一的过滤和脱敏步骤,降低敏感信息被存储的风险。用户可以明确控制相册记忆功能是否开启,以及是否允许系统把提炼出的用户画像注入到后续的推理上下文中。研究团队还提出了一个未来方向:把图像语义摘要的计算迁移到设备端模型上完成,让原始像素数据尽可能不离开手机,从源头上降低云端上传的隐私风险。
四、全行动:管家是如何精准完成任务的
有了感知和记忆,接下来最关键的问题是:管家怎么真正动手把事情办好?这就是Omni Action模块负责解决的问题。
安卓手机上的App种类繁多,每个App的界面设计、交互逻辑、元素结构都大相径庭。有些App提供了规范的界面描述文件(XML),让系统可以精确知道每个按钮在哪里;但另一些App——尤其是广告密集或者界面复杂的那种——XML信息往往不准确甚至缺失,单靠它根本没办法精准点击。
为了应对这种多样性,系统采用了"混合界面理解"策略。具体来说,系统同时使用三种信息来源来定位操作目标:XML结构信息、设备端视觉定位模型、以及OCR文字识别。当XML信息可靠时,优先使用它;当结构信息薄弱、不完整或者位置模糊时,视觉定位和文字识别来弥补空缺。这个机制在广告密集或视觉混乱的界面上特别有用——XML告诉系统"大概在哪个区域",视觉信息进一步锁定"精确的点击位置",两者结合让操作精度大幅提升。
每次操作都被组织成一个"观察-推理-执行"的循环。在观察阶段,系统从多模态界面信息中构建统一的观察快照;在推理阶段,系统判断当前页面状态、上一步操作是否成功、应该调用哪个技能、是否需要检索记忆;在执行阶段,系统通过一系列多样化的操作方式把决策落地,包括安卓系统级的原子操作(点击、滑动、输入等),以及更高层次的操作(文件系统操作、调用预定义工具等)。
除了单次执行之外,系统还有一个更高级的能力:轨迹克隆执行。这个机制的核心是把用户曾经做过的操作"录下来",变成可以反复调用的"技能卡片"。
行为克隆的过程是这样的:当用户在某个App里导航到一个特定页面(比如美团里的限时秒杀页面),系统会在界面层记录这个操作过程,通过UI状态追踪、结构解析和多模态视觉理解,提取出这次操作的语义意图——不是逐字逐步地记录"先点了哪里,再滑了哪里",而是理解"这次操作的目的是进入秒杀活动页面"。系统随后通过一个叫做"dumpsys activity introspection"的技术手段,提取当前Activity(可以理解为App里的某个具体页面)的完整启动参数,包括操作类型、数据地址、附加参数等,把这些信息封装成一个可以直接重放的"地址",连同页面摘要一起保存为结构化的技能卡片。
轨迹重放的过程则是这样的:当用户之后说"帮我去美团秒杀页面",系统通过语义匹配找到对应的技能卡片,然后直接用保存好的启动参数跳转到目标页面,完全绕开了中间那一堆点击步骤。这就好比你告诉管家"去上次那家餐厅",他直接带你走最近的路,而不需要你重新描述一遍怎么去。
为了应对App界面频繁更新导致保存的跳转路径失效的问题,系统采用了多级降级策略:先尝试用完整的跳转参数直接启动;如果失败,就尝试更简化的启动方式;最后实在不行,就通过任务栈恢复的方式把App最近访问的页面调回前台。这种逐步降级的方法,让系统即使在没有公开深度链接的App上,也能实现较为精准的页面恢复。
目前,研究团队已经为电商、本地服务、短视频平台和搜索四大类常用场景预先建立了一批可直接重放的快速入口路径,实现一键直达目标任务。即便用户的请求没有完全匹配到某个已克隆的技能,系统也可以通过同样的深度链接技术,把请求分解成"目标App、操作类型、参数"三元组,映射到App原生的入口点,实现快速访问。
五、三种真实场景中的完整表现
为了更直观地说明这套系统在实际使用中的表现,研究团队展示了三个具体的演示场景。
第一个场景是"现实世界副驾驶助手"。用户把摄像头对准一个真实物品,说"帮我查一下这个在淘宝上多少钱"。系统先通过视觉感知识别出物品是依云喷雾水,然后把意图分解为"在淘宝搜索依云喷雾水",再通过深度链接直接跳转到淘宝的搜索结果页。之后系统进入一个"滑动-截图-提取"的循环:多次滑动结果列表,每次截图后用视觉语言模型读取结构化字段(价格、销量等),并把这些信息整理成结构化的会话记录。最终向用户呈现一份简洁的价格汇总。如果用户随后说"打开第二个商品",系统不需要重新定位,可以直接延续上一个会话继续操作。
同一场景下还有一个变体:当任务不是来自摄像头,而是来自屏幕内容时,系统会以"ScreenAvatar"(屏幕化身)的方式运作。系统在屏幕上部署一个轻量级的悬浮伴侣,用户通过麦克风触发,说"帮我依次解答这些题目",系统就会结合实时屏幕内容和语音意图,规划并驱动一系列跨界面的长链操作,全程持续解读中间界面状态并更新执行策略,基本不需要用户手动干预。
第二个场景是"主动个性化服务"。旅行回来后,用户懒得整理照片,更不想手动剪一个主题视频。X-OmniClaw可以在手机空闲时段自动扫描相册,把照片转化为语义记忆(比如识别出哪些照片里有鹦鹉、哪些是海边场景)。当用户后来说"帮我把所有鹦鹉主题的照片做成一个精彩集锦",系统直接检索语义记忆,找出相关照片,通过深度链接直接跳转到剪映(CapCut)的一键成片界面,用批量多点触控操作自动选中这些照片,触发视频生成——整个流程压缩到几个自动化步骤内完成,大幅减少手动操作。
第三个场景是"行为克隆与轨迹重放"。在很多App里,有用的功能页面往往藏在好几层菜单之下。X-OmniClaw允许用户在第一次导航到某个深层页面时触发"行为克隆",系统自动捕获这个页面的完整启动参数,保存为技能卡片。以后用户只需说一句"去美团秒杀页面",系统通过自然语言匹配找到对应技能,直接跳转,完全省去了每次重复翻找的过程。
六、研究展望:这套系统的未来方向
研究团队在论文中明确提出了三个未来演进方向,每一个都对应着当前系统的一个待提升的维度。
第一个方向是引入"自我进化机制"。当前系统的执行轨迹是相对固定的,但未来研究团队希望系统能够持续迭代优化自己的执行轨迹,把复杂的推理链条提炼成更紧凑的表达,从而减少每次任务消耗的计算量和响应时间。简单来说,就是让管家越干越熟练,越干越省力。
第二个方向是"动态记忆演化"。当前的长期记忆会随时间累积越来越多,但人的偏好和需求是会变化的,旧的、不再相关的记忆反而可能干扰系统判断。未来系统将引入语义整合和选择性遗忘机制,确保用户画像始终保持新鲜和高质量,而不是一个装满过期信息的旧档案柜。
第三个方向是"设备与云端的协同优化"。目前系统在轻量级日常任务上尽量在设备端本地完成,在需要复杂开放域推理时才调用云端大语言模型。未来研究团队希望进一步细化这条边界,通过安全的意图感知网关实现更精细的任务分流,在保护隐私的同时最大化利用云端算力,让系统既轻快又聪明。
研究团队还承诺将把所有代码、资产和相关材料开源发布,并随系统演进持续更新,支持开放研究和用户自定义开发。
说到底,X-OmniClaw想解决的是一个很朴素的问题:手机明明是我们最贴身的设备,却对我们的处境和需求几乎一无所知。这套系统通过让手机同时拥有"看"(摄像头感知)、"听"(语音识别)、"记"(多层次记忆)、"想"(场景意图理解)和"动"(精准执行操作)的能力,试图让手机助手真正成为一个"懂你"的数字伙伴,而不只是一个等待指令的被动工具。
这项研究还没有对外提供普通用户可以直接下载体验的完整产品,目前更多是一个架构和系统设计层面的研究成果。但它描绘的方向——把AI代理的感知、记忆和行动能力深度整合进手机本身——代表着移动端智能助手的一个重要演进路径。如果你对其中的技术细节感兴趣,可以通过arXiv编号2605.05765查阅完整论文。
Q&A
Q1:X-OmniClaw和普通手机语音助手有什么区别?
A:普通语音助手主要负责回答问题或执行单一指令,而X-OmniClaw能同时整合摄像头画面、屏幕内容和语音指令,理解用户所处的真实场景,并自主规划和执行跨多个App的复杂任务,还能记住用户的历史偏好和操作轨迹,是一个具备感知、记忆和行动能力的完整代理系统。
Q2:X-OmniClaw的行为克隆功能是怎么工作的?
A:当用户在某个App里导航到某个深层页面时,可以触发行为克隆,系统会自动捕获该页面的完整启动参数(包括跳转地址和附加信息),保存为可复用的技能卡片。之后用户只需说出自然语言指令,系统就能识别对应技能并直接跳转到目标页面,省去每次重复翻找菜单的步骤。
Q3:X-OmniClaw如何保护用户的隐私数据?
A:系统在将任何内容写入长期记忆之前都会进行过滤和脱敏处理,用户可以自主控制相册记忆功能的开关以及是否允许系统将用户画像注入推理上下文。研究团队还计划将图像语义摘要的计算迁移到设备本地完成,让原始图片数据尽量不上传云端,从源头降低隐私泄露风险。