OpenJarvis与端侧AI：手机、PC与Edge的未来五年

大模型行业观察 AI战略

Feature Essay

OpenJarvis与端侧AI：手机、PC与Edge的未来五年

OpenJarvis 把口号直接写成“Personal AI, On Personal Devices”，迫使端侧讨论回到现实问题：本地模型今天能接住哪些任务，瓶颈究竟在算力、内存、带宽还是功耗？我把论文、手机 SoC、AI PC、桌面 GPU 和本地推理路线放在一起看，试着勾勒未来五年的端侧能力曲线。

2026-03-16 13:26 北京时间 18 分钟阅读难度：硬核

👀 113 阅读 👍 0 点赞

快速答案

端侧大模型下一阶段的核心变化，不是简单把云端模型缩小搬到本地，而是智能效率、统一内存、带宽、功耗和软件栈一起成熟；未来 1 年先吃下单轮助手与轻代理，3 年进入持续多模态，5 年才接近真正的个人本地 AI 系统。

端侧大模型的真正约束已经不是单一 TOPS，而是智能效率、内存容量、带宽、功耗和软件协同的组合瓶颈。
手机和 AI PC 会先吃下单轮问答、多模态理解和轻代理任务，长时规划、重工具调用和开放世界搜索仍主要留在云端。
如果智能效率继续上升，五年内端侧会从本地助手走向本地个人系统，但不会原样复制云端前沿模型。

OpenJarvis 把问题重新摆正了

最近这波端侧讨论里，OpenJarvis 值得注意，不是因为它又做了一套“本地推理演示”，而是因为它把产品口号直接写成了 “Personal AI, On Personal Devices”。这个表述很重要。它把问题从“手机上能不能勉强跑一个模型”改成了“个人 AI 系统里，哪些能力应该默认在本地完成，哪些能力只在必要时才借用云端”。

这背后并不只是产品口号。Scaling Intelligence Lab 在《Intelligence per Watt》里给出的结论很具体：本地模型已经可以覆盖 88.7% 的单轮对话与推理查询，而 2023 到 2025 年间，所谓 intelligence per watt，也就是单位功耗下的有效智能，提升了 5.3 倍。换句话说，端侧已经不是“永远只能做离线玩具”的阶段了。它已经开始吃掉云端原本独占的一部分任务。

但同一篇论文也把边界说得很清楚。研究团队同时指出，本地模型在 agentic workflows、长文档理解、广泛世界知识和开放式搜索任务上，仍然和云端前沿模型存在显著差距。这个落差非常关键。它意味着端侧路线真正的主题，不是“云端结束了”，而是“任务分层开始了”。

今天的端侧，已经能做什么

如果只看能力列表，端侧模型今天其实已经相当能打。单轮问答、摘要、改写、结构化提取、个人知识库检索、图像理解后的问答、轻量级代码辅助，这些任务已经越来越适合本地先做第一轮处理。OpenJarvis 选择的系统形态，也在印证这一点：默认在设备上运行，必要时再向云端借力。

但“端侧”这个词经常被说窄了。它不只指手机，也包括 AI PC、统一内存工作站、家用 mini-PC、车载设备、机器人、工业边缘节点和摄像头侧推理盒子。论文《Mobile Agentic AI Systems in the Era of LLMs》把这件事说得更完整：移动与边缘 AI 系统真正面对的是 SWaP-C 约束，也就是 size、weight、power、cost 的联合作用。设备能不能长期托住一个模型，不取决于参数量一个指标，而取决于整套硬件和系统预算。

这也是为什么“模型能跑起来”和“模型能变成个人 AI 系统”之间，隔着很长一段路。一个设备也许可以在实验状态下跑起 7B、14B 甚至更大的量化模型，但要让它稳定承接语音、视觉、上下文、后台常驻、个人记忆、工具调用和多轮延续，这时候真正吃紧的往往不是启动时的峰值性能，而是持续功耗、内存带宽和热设计。

真正卡住端侧大模型的，是四个变量一起变化

端侧路线最容易被误判的地方，就是大家太喜欢用 TOPS 这种单一数字来比较设备。TOPS 有价值，但它离真实体验还很远。今天端侧大模型能不能做好，至少取决于四件事一起往前走。

第一是智能效率，也就是同样的功耗下，模型到底能完成多少有效任务。《Intelligence per Watt》最重要的贡献，不是证明本地已经赢过云端，而是证明效率曲线正在明显上扬。
第二是内存容量和内存带宽。Apple 在《LLM in a Flash》里谈得很直白，大模型推理的主要瓶颈之一是 DRAM 容量。模型体量超过可用内存以后，系统必须开始想办法把权重和激活值在不同存储层级之间移动。
第三是持续功耗与热约束。手机、轻薄本、车载和机器人都不是机房。它们追求的是十分钟之后还稳定，而不是三十秒冲刺的峰值。
第四是软件栈。量化、KV cache 管理、分层存储、统一内存、调度器、模型蒸馏、工具调用框架，都会影响“这台设备能不能托住一个常用本地模型”。

把这四件事放在一起看，很多看似矛盾的现象就不矛盾了。为什么某些设备 NPU 数字并不夸张，但本地体验依然强？因为它吃到了统一内存和高带宽的红利。为什么某些设备峰值很高，真跑长任务却不稳？因为热约束和持续功耗没有一起跟上。

手机端正在从“能跑模型”走向“常驻多模态助手”

手机是最容易被低估的一层。大家一想到手机端，就会先想到“参数不够大”。但手机真正的价值，从来都不是把桌面 GPU 的路子缩小一遍，而是把语音、摄像头、屏幕上下文、位置、日程、个人数据和即时交互绑在同一块设备上。

硬件曲线已经在说明这件事。Apple 在 2025 年 9 月发布 iPhone 17 Pro 时提到，A19 Pro 对大规模端侧语言模型的持续性能，相比 A18 Pro 提升最高可达 40%。另一条同样明确的行业趋势是，Android 旗舰芯片也在同步抬升 NPU、GPU 和持续能效，这意味着本地视觉、语音和代理前处理不会只停留在 iPhone 路线。

这几组数字放在一起，比单纯比“手机能不能跑 14B”更有意义。手机端下一阶段最重要的变化，不会是突然开始本地运行云端级别的通用大模型，而是越来越多本来要先上云的第一跳任务，会改成先在本地完成。比如语音转理解、相册和屏幕理解、个人知识检索、轻量规划、通知与日程编排、应用内导航和隐私敏感场景下的文本重写。

换句话说，手机端会越来越像个人 AI 的入口层和感知层。它先做感知、筛选、预处理和第一轮判断。真正重的跨网页搜索、长时工具链执行、开放世界研究和大范围代码生成，仍然更多交给云端或别的边缘节点。

PC 端才是未来三年端侧大模型的主战场

如果说手机负责“随身入口”，那 PC 端负责的就是“稳定承载”。这一层的变化比手机更剧烈，因为它同时在吃到 NPU、GPU、统一内存和本地软件生态几条线的进步。

先看行业基线。Microsoft 在 Copilot+ PC 页面上把门槛直接写成了 40+ TOPS 的 NPU。这件事的意义不在于 40 TOPS 是某条神奇分水岭，而在于 PC 行业已经开始把“本地 AI 能力”当成出厂标准，而不是高端选配。

再看芯片路线。Qualcomm 的 Snapdragon X Elite 公开数据已经给到 45 TOPS NPU、4.6 TFLOPS GPU 和 136 GB/s 的内存带宽。这说明 AI PC 这条线并没有停在“能跑几个系统特性”，而是在明确往更重的本地模型和多模态负载演进。

Apple 走的是另一条更值得重视的路。M4 Pro 带来最高 273 GB/s 的统一内存带宽，M4 Max 则把统一内存带宽推到 546 GB/s，并支持最高 128GB 统一内存。Apple 在发布材料里甚至直接写到，M4 Max 让开发者能够和接近 2000 亿参数的模型交互。这句话当然不能简单等同于“本地原生满血运行 200B 模型”，但它已经非常明确地告诉市场：统一内存工作站正在成为端侧大模型的重要承载形态。

AMD 也在沿着同一方向推进。Ryzen AI Max+ 395 的官方页面写得很直接：这代芯片支持最多 128GB 统一内存，可分配给显卡的内存最高 96GB，图形算力最高 60 TFLOPS，并把“本地运行最高 200B 级推理模型”当成卖点之一。对端侧路线来说，这类产品的意义很大，因为它把过去只有服务器或高端独显工作站才能谈的模型体量，逐步带进了个人设备。

再往上看，离散 GPU 也没有退出这条路线。NVIDIA RTX 5090 提供 32GB GDDR7、1792 GB/s 内存带宽和 3352 AI TOPS。它不一定是“个人 AI 最理想的形态”，因为功耗和价格都摆在那里，但它会持续定义桌面端本地推理的性能天花板。很多未来两三年的本地 agent 系统，真正先在开发者工作站和高端桌面上成熟，然后再下放到 AI PC 和移动设备，这个节奏几乎已经可以预见。

软件栈会决定端侧是“演示能力”还是“可用能力”

硬件每年都在进步，但真正把这些进步变成可用系统的，是软件栈。OpenJarvis 的意义也在这里。它给出的不是“再训一个更小模型”的答案，而是“把本地执行、个人上下文和按需云端回退组织成系统”。

Apple 的《LLM in a Flash》强调的是存储层级和内存搬运问题。OpenJarvis 强调的是本地优先和必要时云端补位。Mobile Agentic AI 的综述则提醒我们，移动与边缘系统真正缺的经常不是模型本身，而是模型、调度、感知、存储、工具调用和设备约束之间的系统协同。把这些放在一起看，未来端侧路线最重要的软件红利，大概率会来自三件事。

更激进也更稳妥的量化与蒸馏，让手机和轻薄本能长期托住更强的模型。
更成熟的分层推理架构，让小模型先做判断，大模型只在必要时接管。
更像操作系统能力的本地 agent 框架，把语音、视觉、日程、文档、应用和个人记忆接成一个持续运行的系统。

硬件决定上限，软件决定你能不能碰到上限。这句话放在端侧大模型上，比放在云端更成立。

未来 1 年、3 年、5 年会发生什么

下面这部分开始，是我基于前面论文和硬件路线做的推断，不是任何一家厂商已经承诺的路线图。最有意思的参照系，还是《Intelligence per Watt》里 2023 到 2025 年 5.3 倍的智能效率提升。把它机械外推，意味着 1 年大约再涨 2.3 倍，3 年大约是 12 倍，5 年大约接近 65 倍。真实世界当然不会照着这条曲线原样发生，但它至少说明了一件事：端侧还处在非常早的上升段。

先看未来 1 年。端侧最明显的变化会出现在“第一跳任务”上。旗舰手机会把语音、视觉、通知、相册、笔记和个人知识检索整合得更深，本地 3B 到 8B 级别的多模态模型会越来越常驻。AI PC 和高端轻薄本则会让 14B 到 30B 量化模型变得更日常，部分高端设备会把 30B 到 70B 级别的本地推理带进真实工作流。这个阶段的关键词是本地助手，而不是本地自治系统。

再看未来 3 年。高端 AI PC、Mac 工作站、AMD 统一内存设备和家庭 edge box 会开始出现更强的个人模型底座。这里的关键不是单个 dense 模型一定做大到多少参数，而是 MoE、蒸馏模型和分层调用会把“本地可用能力”推到一个新台阶。到那个时候，本地模型会更擅长持续多模态交互，能更稳地处理个人文档库、会议流、屏幕上下文和软件操作链。手机端则会越来越像感知终端和权限终端，PC 或家庭边缘节点像算力锚点。

最后看未来 5 年。如果今天这条效率曲线大方向不反转，端侧会出现一次真正的质变：个人设备不只是运行一个本地模型，而是运行一个本地个人系统。它会有长期记忆、应用级工具调用、语音与视觉常驻、多设备状态同步和更强的隐私边界。云端仍然会存在，而且仍然对开放世界搜索、最重的推理任务和跨域整合很重要，但它在个人 AI 里的角色会更像高阶外援，而不是默认起点。

我更愿意把这五年的变化理解成三段。第一段是本地助手，重点是响应速度、隐私和第一跳处理。第二段是本地多模态系统，重点是持续交互和个人上下文。第三段才是本地个人 agent，重点是长时运行、任务延续和系统级集成。这个顺序很重要，因为它决定了产品到底该先做什么。

对产品和开发者，真正值得下注的是什么

如果你在做产品，这条路线最值得下注的，不是“本地替代云端”这个口号，而是本地优先、云端补位的任务架构。今天很多团队还在问“这件事到底该全放本地还是全放云端”，但未来更合理的问题会是“哪一跳必须先在本地完成，哪一跳值得延后交给更强的远端模型”。

如果你在做开发工具或 agent 系统，接下来最重要的设计对象，可能也不是单一模型，而是分层能力栈。手机负责感知、权限和即时入口，AI PC 负责个人工作流和长时间会话，家庭或桌面 edge box 负责更重的模型与后台任务，云端负责开放世界和最难的推理。OpenJarvis 之所以值得关注，正因为它把这种分层系统的产品方向直接摆在了台面上。

如果你在看硬件，那就更应该盯住三组指标，而不只是 NPU 宣传数字。第一组是统一内存容量和带宽，第二组是持续功耗和热稳定性，第三组是软件生态是否真的把本地 AI 做成常用能力。对端侧大模型来说，最有决定性的，常常是这三组指标的乘积，而不是其中任何一个单项冠军。

结尾判断

OpenJarvis 这次最值得重视的地方，在于它让端侧大模型的讨论从“设备上能不能跑模型”变成了“设备上能不能承接个人 AI 系统”。这个问题一旦问对，很多结论都会跟着变。

未来五年，端侧不会把云端前沿模型原样缩小后搬回来，也不会只停在离线小助手阶段。更可能发生的，是个人 AI 被拆成多层：手机负责感知和入口，AI PC 与本地工作站负责持续推理和个人上下文，云端负责最重的开放任务。端侧大模型真正的质变，也会出现在这套分层系统成熟之后，而不是某一次参数量突破当天。

参考来源

这里只有一层：长文 - 评论。可以改昵称，也可以不改；改完之后会在这台设备上记住。

还没有评论，你可以写下第一条。

继续阅读

别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-20 00:30 北京时间 10 分钟同主题：行业观察等 3 个标签

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-04-12 10:20 北京时间 12 分钟编辑精选

下一篇 Pico、Null、Zero 三种 claw 路线怎么分

阅读难度

硬核

信息密度较高，建议预留完整时间。

1. OpenJarvis 把问题重新摆正了
2. 今天的端侧，已经能做什么
3. 真正卡住端侧大模型的，是四个变量一起变化
4. 手机端正在从“能跑模型”走向“常驻多模态助手”
5. PC 端才是未来三年端侧大模型的主战场
6. 软件栈会决定端侧是“演示能力”还是“可用能力”
7. 未来 1 年、3 年、5 年会发生什么
8. 对产品和开发者，真正值得下注的是什么
9. 结尾判断

要点

端侧大模型的真正约束已经不是单一 TOPS，而是智能效率、内存容量、带宽、功耗和软件协同的组合瓶颈。
手机和 AI PC 会先吃下单轮问答、多模态理解和轻代理任务，长时规划、重工具调用和开放世界搜索仍主要留在云端。
如果智能效率继续上升，五年内端侧会从本地助手走向本地个人系统，但不会原样复制云端前沿模型。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

OpenJarvis与端侧AI：手机、PC与Edge的未来五年

快速答案

OpenJarvis 把问题重新摆正了

今天的端侧，已经能做什么

真正卡住端侧大模型的，是四个变量一起变化

手机端正在从“能跑模型”走向“常驻多模态助手”

PC 端才是未来三年端侧大模型的主战场

软件栈会决定端侧是“演示能力”还是“可用能力”

未来 1 年、3 年、5 年会发生什么

对产品和开发者，真正值得下注的是什么

结尾判断

参考来源

评论（0）

继续阅读

同主题延伸

xAI 到底是不是一家独立的 AI 公司

中国大厂 AI 最近 70 天：入口、执行权与控制面的重新分配

光纤代替内存？这不是今天的新闻，也还不是 AI 硬件革命

编辑精选

在原生 Windows 上，重搭 AI 编程命令行栈

Hermes 安装指南：macOS 和 Windows 怎么装

01｜论文精选：这一周最值得看的三条判断