广谈大湾网

广谈大湾网 首页 资讯 数码科技 查看内容

海外科技巨头为什么没做出“AI手机”?

2025-12-18 15:05| 发布者: 如风

摘要: 图片来源:界面新闻“AI手机”近期在国内的爆火状态,为行业带来了一种似曾相识的冲击感。它通过读屏、模拟点击、进程注入等方式,实现跨应用的自动化流程。用户只需一句明确指令,手机便能代为奔赴多个平台完成下单 ...

图片来源:界面新闻

“AI手机”近期在国内的爆火状态,为行业带来了一种似曾相识的冲击感。

它通过读屏、模拟点击、进程注入等方式,实现跨应用的自动化流程。用户只需一句明确指令,手机便能代为奔赴多个平台完成下单、搜索、规划或支付,在多个App之间来回穿梭,几乎无需人工介入。

这种跃进式的效率展示,在短时间内极大抬高了公众对AI助手能力的期待,也推动厂商密集展示跨应用自动化的最新进展。

但在体验之外,一种更隐约、却更难忽视的不安也开始浮现。有人开始意识到,这类能力的真正门槛并不完全来自模型或算法,而是建立在对系统权限边界的实质性突破之上。

当这种路径被迅速复制并放大,问题也随之变得尖锐:在效率、隐私与责任之间,AI手机究竟应当如何取舍?

值得关注的是,与国内当前一触即发的白热化氛围不同,整个海外市场的软硬件厂商还集体处在相对保守克制的状态。苹果、谷歌、三星,这些定义了智能手机过去十五年进化方向的公司,还没有推出类似的AI自动化体验,但在诸如A2A等AI智能体连接的技术框架上,逐渐探索出一条可治理、可规模化的演进路径。

这种反差本身也让这股热潮显露出更复杂的另一面:当技术与规则发生缠绕与对抗时,创新究竟该以何种方式推进,成为摆在整个行业面前无法回避的问题。

海外巨头的克制,主流厂商的另一种答案

在是否让AI助手直接操作第三方应用的问题上,中美企业走出了两条不太一致的技术路径。

以手机端为例,纵观OpenAI、Anthropic、谷歌、微软、苹果与xAI等美国头部科技公司,其AI助手暂未采用读屏、模拟点击的方式代替用户操作手机应用,唯有谷歌Gemini与微软Copilot,在手机上推出了屏幕共享与实时问答能力,但AI助手仍然无法代替操作。

有限度的探索主要发生在PC端,并且被严格限定在受控环境内。

美国AI公司在GUI方向的尝试,大体可分为Browser Use(使用浏览器)与Computer Use(使用计算机)两类。前者只允许AI在浏览器中代理用户行为,后者则试图让AI操作整台电脑,但几乎无一例外地通过沙盒或虚拟机将其与真实设备隔离。

OpenAI于10月发布的Atlas浏览器,允许ChatGPT在网页层面执行任务,但明确禁止运行代码、下载文件、访问本地应用或文件系统,并反复强调提示词注入攻击的风险仍无法被完全消除。

Anthropic的Claude for Chrome、谷歌的Gemini Agent、微软集成Copilot的Edge浏览器,能力边界与之高度相似,且均处于预览或早期阶段,仅向部分用户开放。

在更进一步的Computer Use方向,美国公司的推进速度也显得相对谨慎。

Anthropic在2024年底就发布了Computer Use API,但至今仅供开发者测试,并在指南中反复要求使用虚拟环境、限制访问域名、避免触及敏感数据。谷歌今年10月发布的Gemini 2.5 Computer Use模型,同样停留在开发者预览阶段。

真正率先“售卖产品”的是OpenAI于7月推出的ChatGPT Agent,但其工作环境并非用户本地电脑,而是一台完全隔离的虚拟机。

微软的路径或许更具代表性:在Recall功能因高频截屏引发隐私与监管争议后,微软并未激进推进GUI接管,而是将功能拆分为Copilot Vision与Copilot Actions。前者只能在用户授权的应用范围内提供辅助信息,后者虽具执行能力,但必须在单独拉起的沙盒桌面中运行,并严格限制可访问的文件夹。

这些设计选择背后,折射出美国AI公司对AI Agent能力权限的警惕。即便是在数据敏感度相对较低的PC场景,这些公司仍优先通过浏览器、虚拟机等方式降低系统性风险。

在这一逻辑下,GUI并非能力问题,更可能是责任乃至法律问题:一旦AI被允许直接操纵真实设备,错误点击、越权访问、数据泄露乃至被诱导执行恶意指令,其后果将很难通过技术手段完全兜底。

与之相比,国内厂商在手机端进行读屏、点击、执行的尝试,其差异本源不在于工程能力高低,而是对风险边界与监管预期的根本判断不同。

从产业背景看,国内厂商倾向于选择手机端GUI路线并非偶然。国内移动互联网长期形成的“超级App”与“跨场景服务”传统,使厂商更习惯通过技术手段在前台整合服务,而非等待应用生态自发演进。在这一语境下,让AI直接“上手操作”,被视为缩短价值兑现路径的现实选择。

只不过,这种路径也意味着更高的系统性风险。

从“绕开应用”到“调用能力”:海外厂商的接口化路线探索

如果仅从GUI进展判断,美国AI助手似乎显得保守甚至迟缓,但在接口路线上的推进,其深度与系统性实则更为突出。

与“直接操作界面”不同,美国厂商目前倾向于让AI通过标准化接口调用第三方能力,将智能体嵌入既有软件体系之中。这一策略在OpenAI、操作系统厂商以及Anthropic身上,呈现出三种不同但彼此呼应的形态。

对OpenAI而言,接口几乎是其生态战略的核心。ChatGPT在拥有数亿级周活用户后,已不再只是对话产品,而是一个事实上的流量入口。

自2023年推出插件体系起,OpenAI便不断扩展其API能力,从函数调用到Assistants API、Responses API,再到今年基于MCP协议推出的Apps SDK,持续降低第三方应用被调用的门槛。

目前,Booking、Expedia、Spotify、Canva、Zillow等应用以卡片形式直接嵌入ChatGPT对话流程,使用户无需离开对话框即可完成预订、设计或搜索。OpenAI的逻辑不是让AI学会界面操作,而是让应用主动暴露能力,并让AI成为统一调度层。

以iOS、安卓、Windows等为代表的操作系统,其背后厂商采取了另一种更偏基础设施的路径。

苹果在2022年推出Apps Intent框架,鼓励开发者向系统声明功能供Siri调用,尽管进展缓慢,但始终没有开放通过读屏绕开应用本身的能力。在尚未落地的“屏幕感知”功能中,苹果也选择通过API将屏幕内容与上下文提供给Siri,而非直接操控界面。

谷歌在Android 16中推出的AppFunctions API,试图解决安卓生态中意图框架碎片化的问题,让系统能够统一发现并索引应用能力;微软在Windows 11上发布的Apps Actions API,同样强调由应用声明功能、由Copilot调用,并进一步支持MCP协议接入。

在这一格局中,Anthropic作为既无操作系统、也无应用生态的初创公司,选择将竞争焦点放在规则制定上。

2024年11月开源MCP协议后,Anthropic很快促成OpenAI、谷歌、微软、亚马逊等头部厂商接入,并在今年12月将协议捐赠给Linux基金会旗下的Agentic AI Foundation,试图确立其中立地位。

从数据上看,MCP的扩散速度已初具规模:活跃公共服务数量在一年内从2000增长至1万,并被ChatGPT、Copilot、Gemini、Cursor等主流产品采纳。相比之下,谷歌提出的A2A协议与国内的ANP协议仍处于更早阶段,但也反映出行业对“智能体之间如何通信、如何调用能力”的共同焦虑。

归根结底,接口路线的意义在于它为AI智能体提供了一条可规模化、可治理的演进路径。通过标准化协议与能力声明,AI不用需要理解每一个界面细节以及承担越权操作的风险,仅需被嵌入既有软件分工之中。

从长期看,这种方式会一定程度上丧失跃进式体验的惊艳感,但本质上更接近AI基础设施的稳定形态。

AI手机的真正分叉口:如何建立一套“可扩展的安全边界”

国内AI手机的发展,正在进入一个比“能不能做”更关键的阶段——如何在不失速的前提下,建立一套长期可扩展的安全边界。

这是一种微妙的分岔时刻:一条路追求速度,以跨应用操作与权限突破创新体验并推动技术迭代;另一条路则需要在更沉稳、更长线的方向上扎根。

正因如此,国内厂商内部开始出现分化。一部分团队仍在追求更激进的体验展示,也有些产品方表达了理性的观点。

如OPPO ColorOS 智慧产品研发总监姜昱辰在近期采访活动中表示,手机背后是一系列生态伙伴,在这方面的尝试牵一发而动全身,GUI Agent 是长尾场景的兜底技术手段,OPPO 更倾向通过 Agent to Agent 实现生态互联,就是在手机上怎么去与其他服务商的 Agent 进行交互。

在这一背景下,Agent to Agent(A2A)协作机制逐渐被视为更具前景的方向。与系统级AI直接操作应用不同,A2A的核心逻辑是“分权协作”:系统级AI只负责理解用户意图,并将任务拆解后分发给各应用自己的Agent,并由美团、高德、支付平台等应用侧智能体,在自身权限边界内完成执行。

这种模式下,每一次跨应用行为都发生在明确的责任与授权体系中,既避免了越权操作,也为事后审计与纠错提供了基础条件。

这一思路与Anthropic推动的MCP协议相对一致,均依赖开放生态、明确的接口与可审计的流程,不通过读屏技术挑战所有应用的隐私边界。这条路径更慢,也更考验生态协同,但其稳定性与可治理性,决定了它更可能成为长期主线。

与此同时,国内厂商也在另一条方向上持续投入,即端侧记忆系统的构建。

通过在本地存储用户偏好、行为习惯与上下文信息,AI得以在不读取其他应用数据、不上传云端的前提下实现个性化。这种“第二大脑”式的能力,避免了进一步侵蚀系统权限与触碰监管与生态的红线,却能持续提升AI的理解深度。

不过,行业内部真正的担忧不仅仅是进程慢。一旦各家厂商为了快速展示能力、争夺市场注意力而不断下探系统权限,整个生态可能被迫卷入一场权限竞赛的争斗中。在此境况下,生态将失去稳定性,安全与隐私风险会被指数级放大,而行业规范的重建成本或将远高于早期的节制。

因此,越来越多行业声音开始呼吁:权限突破不应成为长期竞争手段,跨应用协作必应当走向可审计、可治理的标准化道路。这意味着双重授权机制、清晰的权限分级、完整的行为日志,以及以A2A、MCP为代表的开放协议,将共同构成AI手机走向成熟阶段的必要基础设施。

中国正在加速进入AI手机时代,但越是高速演进的周期,越需要边界明确。因为真正决定行业上限的,或许不是哪一次“看起来更聪明”的演示,而是能够长久保证将聪明且安全的产品交到用户手中。

来源:界面新闻、如有侵权请联系删除


鲜花

握手

雷人

路过

鸡蛋
  • 发布新帖

  • QQ客服

  • 微信公众号

  • 移动端

  • 返回顶部