OpenJarvis 把问题重新摆正了
最近这波端侧讨论里,OpenJarvis 值得注意,不是因为它又做了一套“本地推理演示”,而是因为它把产品口号直接写成了 “Personal AI, On Personal Devices”。这个表述很重要。它把问题从“手机上能不能勉强跑一个模型”改成了“个人 AI 系统里,哪些能力应该默认在本地完成,哪些能力只在必要时才借用云端”。
这背后并不只是产品口号。Scaling Intelligence Lab 在《Intelligence per Watt》里给出的结论很具体:本地模型已经可以覆盖 88.7% 的单轮对话与推理查询,而 2023 到 2025 年间,所谓 intelligence per watt,也就是单位功耗下的有效智能,提升了 5.3 倍。换句话说,端侧已经不是“永远只能做离线玩具”的阶段了。它已经开始吃掉云端原本独占的一部分任务。
但同一篇论文也把边界说得很清楚。研究团队同时指出,本地模型在 agentic workflows、长文档理解、广泛世界知识和开放式搜索任务上,仍然和云端前沿模型存在显著差距。这个落差非常关键。它意味着端侧路线真正的主题,不是“云端结束了”,而是“任务分层开始了”。
今天的端侧,已经能做什么
如果只看能力列表,端侧模型今天其实已经相当能打。单轮问答、摘要、改写、结构化提取、个人知识库检索、图像理解后的问答、轻量级代码辅助,这些任务已经越来越适合本地先做第一轮处理。OpenJarvis 选择的系统形态,也在印证这一点:默认在设备上运行,必要时再向云端借力。
但“端侧”这个词经常被说窄了。它不只指手机,也包括 AI PC、统一内存工作站、家用 mini-PC、车载设备、机器人、工业边缘节点和摄像头侧推理盒子。论文《Mobile Agentic AI Systems in the Era of LLMs》把这件事说得更完整:移动与边缘 AI 系统真正面对的是 SWaP-C 约束,也就是 size、weight、power、cost 的联合作用。设备能不能长期托住一个模型,不取决于参数量一个指标,而取决于整套硬件和系统预算。
这也是为什么“模型能跑起来”和“模型能变成个人 AI 系统”之间,隔着很长一段路。一个设备也许可以在实验状态下跑起 7B、14B 甚至更大的量化模型,但要让它稳定承接语音、视觉、上下文、后台常驻、个人记忆、工具调用和多轮延续,这时候真正吃紧的往往不是启动时的峰值性能,而是持续功耗、内存带宽和热设计。
真正卡住端侧大模型的,是四个变量一起变化
端侧路线最容易被误判的地方,就是大家太喜欢用 TOPS 这种单一数字来比较设备。TOPS 有价值,但它离真实体验还很远。今天端侧大模型能不能做好,至少取决于四件事一起往前走。
- 第一是智能效率,也就是同样的功耗下,模型到底能完成多少有效任务。《Intelligence per Watt》最重要的贡献,不是证明本地已经赢过云端,而是证明效率曲线正在明显上扬。
- 第二是内存容量和内存带宽。Apple 在《LLM in a Flash》里谈得很直白,大模型推理的主要瓶颈之一是 DRAM 容量。模型体量超过可用内存以后,系统必须开始想办法把权重和激活值在不同存储层级之间移动。
- 第三是持续功耗与热约束。手机、轻薄本、车载和机器人都不是机房。它们追求的是十分钟之后还稳定,而不是三十秒冲刺的峰值。
- 第四是软件栈。量化、KV cache 管理、分层存储、统一内存、调度器、模型蒸馏、工具调用框架,都会影响“这台设备能不能托住一个常用本地模型”。
把这四件事放在一起看,很多看似矛盾的现象就不矛盾了。为什么某些设备 NPU 数字并不夸张,但本地体验依然强?因为它吃到了统一内存和高带宽的红利。为什么某些设备峰值很高,真跑长任务却不稳?因为热约束和持续功耗没有一起跟上。
手机端正在从“能跑模型”走向“常驻多模态助手”
手机是最容易被低估的一层。大家一想到手机端,就会先想到“参数不够大”。但手机真正的价值,从来都不是把桌面 GPU 的路子缩小一遍,而是把语音、摄像头、屏幕上下文、位置、日程、个人数据和即时交互绑在同一块设备上。
硬件曲线已经在说明这件事。Apple 在 2025 年 9 月发布 iPhone 17 Pro 时提到,A19 Pro 对大规模端侧语言模型的持续性能,相比 A18 Pro 提升最高可达 40%。另一条同样明确的行业趋势是,Android 旗舰芯片也在同步抬升 NPU、GPU 和持续能效,这意味着本地视觉、语音和代理前处理不会只停留在 iPhone 路线。
这几组数字放在一起,比单纯比“手机能不能跑 14B”更有意义。手机端下一阶段最重要的变化,不会是突然开始本地运行云端级别的通用大模型,而是越来越多本来要先上云的第一跳任务,会改成先在本地完成。比如语音转理解、相册和屏幕理解、个人知识检索、轻量规划、通知与日程编排、应用内导航和隐私敏感场景下的文本重写。
换句话说,手机端会越来越像个人 AI 的入口层和感知层。它先做感知、筛选、预处理和第一轮判断。真正重的跨网页搜索、长时工具链执行、开放世界研究和大范围代码生成,仍然更多交给云端或别的边缘节点。
PC 端才是未来三年端侧大模型的主战场
如果说手机负责“随身入口”,那 PC 端负责的就是“稳定承载”。这一层的变化比手机更剧烈,因为它同时在吃到 NPU、GPU、统一内存和本地软件生态几条线的进步。
先看行业基线。Microsoft 在 Copilot+ PC 页面上把门槛直接写成了 40+ TOPS 的 NPU。这件事的意义不在于 40 TOPS 是某条神奇分水岭,而在于 PC 行业已经开始把“本地 AI 能力”当成出厂标准,而不是高端选配。
再看芯片路线。Qualcomm 的 Snapdragon X Elite 公开数据已经给到 45 TOPS NPU、4.6 TFLOPS GPU 和 136 GB/s 的内存带宽。这说明 AI PC 这条线并没有停在“能跑几个系统特性”,而是在明确往更重的本地模型和多模态负载演进。
Apple 走的是另一条更值得重视的路。M4 Pro 带来最高 273 GB/s 的统一内存带宽,M4 Max 则把统一内存带宽推到 546 GB/s,并支持最高 128GB 统一内存。Apple 在发布材料里甚至直接写到,M4 Max 让开发者能够和接近 2000 亿参数的模型交互。这句话当然不能简单等同于“本地原生满血运行 200B 模型”,但它已经非常明确地告诉市场:统一内存工作站正在成为端侧大模型的重要承载形态。
AMD 也在沿着同一方向推进。Ryzen AI Max+ 395 的官方页面写得很直接:这代芯片支持最多 128GB 统一内存,可分配给显卡的内存最高 96GB,图形算力最高 60 TFLOPS,并把“本地运行最高 200B 级推理模型”当成卖点之一。对端侧路线来说,这类产品的意义很大,因为它把过去只有服务器或高端独显工作站才能谈的模型体量,逐步带进了个人设备。
再往上看,离散 GPU 也没有退出这条路线。NVIDIA RTX 5090 提供 32GB GDDR7、1792 GB/s 内存带宽和 3352 AI TOPS。它不一定是“个人 AI 最理想的形态”,因为功耗和价格都摆在那里,但它会持续定义桌面端本地推理的性能天花板。很多未来两三年的本地 agent 系统,真正先在开发者工作站和高端桌面上成熟,然后再下放到 AI PC 和移动设备,这个节奏几乎已经可以预见。
软件栈会决定端侧是“演示能力”还是“可用能力”
硬件每年都在进步,但真正把这些进步变成可用系统的,是软件栈。OpenJarvis 的意义也在这里。它给出的不是“再训一个更小模型”的答案,而是“把本地执行、个人上下文和按需云端回退组织成系统”。
Apple 的《LLM in a Flash》强调的是存储层级和内存搬运问题。OpenJarvis 强调的是本地优先和必要时云端补位。Mobile Agentic AI 的综述则提醒我们,移动与边缘系统真正缺的经常不是模型本身,而是模型、调度、感知、存储、工具调用和设备约束之间的系统协同。把这些放在一起看,未来端侧路线最重要的软件红利,大概率会来自三件事。
- 更激进也更稳妥的量化与蒸馏,让手机和轻薄本能长期托住更强的模型。
- 更成熟的分层推理架构,让小模型先做判断,大模型只在必要时接管。
- 更像操作系统能力的本地 agent 框架,把语音、视觉、日程、文档、应用和个人记忆接成一个持续运行的系统。
硬件决定上限,软件决定你能不能碰到上限。这句话放在端侧大模型上,比放在云端更成立。
未来 1 年、3 年、5 年会发生什么
下面这部分开始,是我基于前面论文和硬件路线做的推断,不是任何一家厂商已经承诺的路线图。最有意思的参照系,还是《Intelligence per Watt》里 2023 到 2025 年 5.3 倍的智能效率提升。把它机械外推,意味着 1 年大约再涨 2.3 倍,3 年大约是 12 倍,5 年大约接近 65 倍。真实世界当然不会照着这条曲线原样发生,但它至少说明了一件事:端侧还处在非常早的上升段。
先看未来 1 年。端侧最明显的变化会出现在“第一跳任务”上。旗舰手机会把语音、视觉、通知、相册、笔记和个人知识检索整合得更深,本地 3B 到 8B 级别的多模态模型会越来越常驻。AI PC 和高端轻薄本则会让 14B 到 30B 量化模型变得更日常,部分高端设备会把 30B 到 70B 级别的本地推理带进真实工作流。这个阶段的关键词是本地助手,而不是本地自治系统。
再看未来 3 年。高端 AI PC、Mac 工作站、AMD 统一内存设备和家庭 edge box 会开始出现更强的个人模型底座。这里的关键不是单个 dense 模型一定做大到多少参数,而是 MoE、蒸馏模型和分层调用会把“本地可用能力”推到一个新台阶。到那个时候,本地模型会更擅长持续多模态交互,能更稳地处理个人文档库、会议流、屏幕上下文和软件操作链。手机端则会越来越像感知终端和权限终端,PC 或家庭边缘节点像算力锚点。
最后看未来 5 年。如果今天这条效率曲线大方向不反转,端侧会出现一次真正的质变:个人设备不只是运行一个本地模型,而是运行一个本地个人系统。它会有长期记忆、应用级工具调用、语音与视觉常驻、多设备状态同步和更强的隐私边界。云端仍然会存在,而且仍然对开放世界搜索、最重的推理任务和跨域整合很重要,但它在个人 AI 里的角色会更像高阶外援,而不是默认起点。
我更愿意把这五年的变化理解成三段。第一段是本地助手,重点是响应速度、隐私和第一跳处理。第二段是本地多模态系统,重点是持续交互和个人上下文。第三段才是本地个人 agent,重点是长时运行、任务延续和系统级集成。这个顺序很重要,因为它决定了产品到底该先做什么。
对产品和开发者,真正值得下注的是什么
如果你在做产品,这条路线最值得下注的,不是“本地替代云端”这个口号,而是本地优先、云端补位的任务架构。今天很多团队还在问“这件事到底该全放本地还是全放云端”,但未来更合理的问题会是“哪一跳必须先在本地完成,哪一跳值得延后交给更强的远端模型”。
如果你在做开发工具或 agent 系统,接下来最重要的设计对象,可能也不是单一模型,而是分层能力栈。手机负责感知、权限和即时入口,AI PC 负责个人工作流和长时间会话,家庭或桌面 edge box 负责更重的模型与后台任务,云端负责开放世界和最难的推理。OpenJarvis 之所以值得关注,正因为它把这种分层系统的产品方向直接摆在了台面上。
如果你在看硬件,那就更应该盯住三组指标,而不只是 NPU 宣传数字。第一组是统一内存容量和带宽,第二组是持续功耗和热稳定性,第三组是软件生态是否真的把本地 AI 做成常用能力。对端侧大模型来说,最有决定性的,常常是这三组指标的乘积,而不是其中任何一个单项冠军。
结尾判断
OpenJarvis 这次最值得重视的地方,在于它让端侧大模型的讨论从“设备上能不能跑模型”变成了“设备上能不能承接个人 AI 系统”。这个问题一旦问对,很多结论都会跟着变。
未来五年,端侧不会把云端前沿模型原样缩小后搬回来,也不会只停在离线小助手阶段。更可能发生的,是个人 AI 被拆成多层:手机负责感知和入口,AI PC 与本地工作站负责持续推理和个人上下文,云端负责最重的开放任务。端侧大模型真正的质变,也会出现在这套分层系统成熟之后,而不是某一次参数量突破当天。
还没有评论,你可以写下第一条。