更聪明的智能助手,和真正的「AI 控车」。
作者|靖宇
走完 2026 北京车展的十几个展馆,我最大的感受是,车企的高管,肯定是用上「小龙虾」了——今年,如果你的新车没搭个大模型,你都不好意思开发布会。
火山引擎带着豆包宣布搭载超 700 万辆车;腾讯发布出行全场景智能体开放平台;科大讯飞推星火智能座舱;面壁智能展示端侧 Agent 框架 EmbodiedClaw,连奔驰新一代 S 级都在后排塞了一颗端侧多模态大模型 VLM。
更不用说华为的鸿蒙座舱 HarmonySpace 6、宝马与阿里联合定制的 AI 大模型——放眼望去,整个车展弥漫着一种「不 AI,就出局」的紧迫感。
但如果你真的坐进这些车里,一辆一辆试过去,会发现一个略显尴尬的事实。
绝大多数所谓的「AI 座舱」,本质上还是一个更智能、会聊天的语音助手。
它们可以帮你规划出去某个景点的打卡和网红餐厅路线,搭载了大模型能力,也能和你闲聊非常多话题,并且情绪价值给足。但是,在真正「控车」环节,能力依然欠奉——至少在 Q4 之前,真正的 Agent 控车的量产车,可能还送不到消费者手里。
这就是 2026 年汽车 AI 最核心的一个断层:人人都在讲 Agent 上车,但从 Chatbot 到 Agent,中间差的东西,比大多数人想象的要多得多。
01
人人都在讲 Agent,但 90% 还是 Chatbot
两年多之前,大模型上车就已经是车企共识,在 2026 年已经不是什么新闻了——它现在是基础设施,而不是时髦的噱头。
豆包(火山引擎)、通义(阿里)、星火(科大讯飞)、腾讯混元、面壁 MiniCPM……几乎所有主流大模型都在抢汽车的入口。你甚至能在车展的展台上,看到同一家车企,不同产品接入了不同的模型厂商的产品。
真正的问题是:接了大模型之后,体验变了多少?
讯飞也在做星火智能座舱方案|图片来源:极客公园
我在车展期间跟科大讯飞的人聊,他们的星火大模型(星火智能座舱)也在做上车方案。一个很有代表性的细节是,他们告诉我,目前星火上车做车控的思路,是大模型生成指令之后,映射到之前传统语音助手的控车路线上。换句话说,AI 的「脑子」是新的,但「手脚」还是旧的。
这不是讯飞一家的做法。目前行业里绝大多数「大模型上车」的合作模式,都是车企调用一个云端大模型 API,替换掉原来的语音引擎。 对话更自然了,知识更丰富了,情绪识别更好了——但你说一句,它答一句,这还是 Chatbot 的逻辑。
真正的 Agent 上车应该是什么样的?
火山引擎在这次车展发布会上用了一个很准确的表述:从「回合制问答」到「感知-推理-执行-记忆-学习」的一体化闭环。翻译成人话就是,它不只是回答你的问题,而是能主动感知环境、理解你的意图、拆解任务、调用车上的各种能力把事情办完,而且还能记住你的习惯,下次做得更好。
有一个很简单的判断标准,你对车说「我有点闷」。Chatbot 会问你「要不要开窗」;而一个真正的 Agent,应该能结合当前温度、湿度、车速、你的历史偏好、后排有没有人在睡觉,自动做出一套组合调节——可能是开一条缝的车窗加上调低空调两度再打开座椅通风。
这个差距看起来不大,但背后涉及的工程复杂度,是完全不同量级的。
02
从 Chatbot 到 Agent,差的不是模型,是「底座」
为什么,从「能聊天」到真正「能办事」这么难?
很多人的第一反应是模型不够强。但其实,以目前豆包、通义、星火这些大模型的能力,理解「我有点闷」这句话的含义,并不是什么难事。真正的瓶颈在另一个地方:大模型再聪明,如果车企不把底层能力开放出来,它也只能陪你聊天。
这就像你请了一个特别聪明的助理,但你不给他公司的系统权限,不让他调动任何资源。他再聪明,也只能坐在那跟你对话。
Agent 上车,最大的挑战就是这个。
一辆车的底层有几千个硬件接口——空调、车窗、座椅、氛围灯、通风、导航、行车信号……这些东西原本是为「按钮」和「触屏」设计的,不是为 AI 设计的。你突然让一个大模型来操作这些东西,它连信号都拿不到,更别说安全地控制了。
而且,车控不是小事。如果你只是简单地把接口暴露给 AI,让它直接调用,一旦产生安全问题,结果就可能很严重。
所以 Agent 上车的核心难题不是「大模型能不能理解我的话」,而是「理解之后,怎么安全地、精确地、在对的时机帮我把事办了」。
火山引擎和荣威合作的新产品序列「家越 07」|图片来源:极客公园
在这次车展前后,我深入了解了火山引擎和荣威合作的一套方案,叫 CPP 架构。这可能是目前行业里对「Agent 上车」想得最深、做得最重的一个案例。
CPP 是三个词的缩写:Context、Planner、Pixel。但它不是一个 Agent——它是一个 Agent 的「操作系统」,业内叫 runtime。
先说 Context。
大多数车载 AI 的「上下文」就是你跟它聊天的记录。但 CPP 的 Context 做了一件很激进的事——它把上下文泛化了。不只是对话,而是把车内外的所有信息都当作 AI 的「感知输入」:9 到 13 路外部摄像头、2 到 3 路内部摄像头、车辆的所有传感器信号、用户的长期记忆,甚至豆包 App 上的个人偏好数据。
这个「泛化」听起来简单,做起来极难。因为这些摄像头和传感器,原本是为自动驾驶、360 度倒车影像、行人检测这些功能设计的。你突然要让座舱 AI 调用它们来判断「后排的小朋友是不是睡着了」,就需要在底层重新打通信号通道。荣威能做到这一步,靠的是七年三代电子电器架构的积累——这不是短期能补的功课。
再说 Planner。
荣威的 CPP 架构|图片来源:荣威汽车
这是 CPP 最核心的一层。它不是一个单一的大模型,而是一个多模型协作的「任务规划器」。简单的指令(开车窗)走一个轻量快速模型,毫秒级响应;复杂的任务(帮我规划明天的行程)走一个深度思考模型,允许异步处理;环境感知(后排有没有人)走视觉模型。
这里有一个很精巧的设计叫 pre-tool 和 post-tool。比如你说:「北京鸟巢旁边那个什么会议中心附近的星巴克,帮我导过去。」这个请求很复杂,AI 需要先理解「鸟巢旁边的会议中心」是水立方还是国家会议中心,然后搜索附近的星巴克,再设定导航。
如果等它全部算完再回答你,可能要好几秒——在车里,几秒的沉默就会让人觉得它死机了。所以 pre-tool 机制会让 AI 先快速回一句「你说的是水立方吧?我现在帮你找附近的星巴克」——这段话说出来的 3 秒钟里,后台另一个并行任务已经在疯狂计算了。算完之后,post-tool 把结果汇总,接上前面的话继续说。用户感受到的是一段连贯的对话,背后其实是两三个模型在并行工作。
最后是 Pixel——像素级执行。
这才是整套架构里最「重」的一层,也是最需要主机厂自己来做的一层。荣威的做法是把底层两三千个硬件接口,封装成七八百个安全的「服务层」接口。AI 不直接操作底层硬件,而是调用这个服务层。 就像你开着车去按 P 档,它按不下去——不是因为有人告诉你「不能按」,而是在架构层面就锁死了。
这就是他们内部说的「黑区、灰区、彩区」设计。彩区,AI 可以尽情发挥;灰区,有条件地执行;黑区,比如行驶中的关键安全操作,无论 AI 多聪明都碰不到。
荣威和火山引擎+豆包的开发强度超出了行业预期。 荣威的服务层封装已经迭代到第三代,光第三代的研发周期就超过两年半。火山引擎的联合开发团队高峰期近 200 人。而且这不是火山单方面做的——CPP 的每一层都需要车企和大模型厂商一起定义,因为车载场景的需求(延迟敏感、安全要求、多人多角色交互)和手机、电脑上的 AI 完全不同。
但原生方案的门槛极高。你需要车企愿意把底层架构打开,需要大模型厂商深入理解车载场景,需要双方投入两年以上的联合开发——其中每一项都难度极大,意愿极低。这也是为什么整个行业都在喊 Agent,但真正落地的几乎没有。
03
MaaS 大战,烧到了汽车上
技术问题之外,Agent 上车,还有另一个看不见的战场——云服务市场的争夺。
汽车座舱正在成为 MaaS 的新战场。不夸张地说,这可能是继公有云之后,中国科技巨头们最激烈的一次 B 端抢滩。
目前至少有四条路线在同时跑。
火山引擎和豆包走的是「C 端撬 B 端」的路线。豆包 App 日活已经突破 3 亿,这意味着字节在自然语言交互、情绪识别、个人偏好学习上积累了海量的用户数据。火山引擎把这套能力打包,推到汽车端,目前搭载量超 700 万辆,覆盖 50 多个品牌、145 个车型——这个数字是行业第一。
豆包座舱助手能实现的能力|图片来源:极客公园
更重要的是,火山这次发布的「豆包座舱助手」,直接与手机端的豆包 App 打通。这意味着你在手机上训练出来的个人偏好——你喜欢被安慰还是喜欢听干货、你的说话风格、你常问的问题类型——上车就能无缝继承。这是其他家做不到的,因为没有人同时拥有一个 3 亿日活的 C 端 AI 应用,和一套 B 端的汽车云服务。
阿里云走的是传统 B 端强客户关系的路线。
宝马在中国选了阿里联合定制 AI 大模型,这是一个标志性事件。阿里云在汽车行业经营多年,客户基盘扎实,而且在训练基础设施、数据中台方面有深厚积累。
腾讯则选了一条完全不同的路。在车展前一天的 TIMEDAY 大会上,腾讯发布了出行全场景智能体开放平台。他们的逻辑不是「卖模型」,而是「做底座」——不绑定生态,而是开放能力,让车企在腾讯的平台上自己搭。目前腾讯产品的座舱搭载量超 1800 万辆,在头部车企中渗透率超过 80%。连特斯拉在中国市场,都选了腾讯来做微信互联和目的地服务。微信支付、小程序、腾讯地图——这些生态资源是腾讯的独家护城河。
华为最特殊,走的是最接近 Tier 1 的路线。鸿蒙座舱加乾崑智驾,深度绑定车企,从芯片到操作系统到应用层全部自研。
在这个格局里,火山引擎的位置很微妙。
极客公园在车展期间参加了火山引擎的媒体群访。火山引擎高管在被问到「是否想做华为那样的大模型上车 Tier 1」时,明确说了「不想」。但你看他们实际在推的东西——「豆包座舱助手」是完整的产品级交付,跟豆包 App 互联互通,年内量产——这已经远远超出了一个「API 供应商」的边界。
嘴上说不做 Tier 1,身体很诚实。
更有意思的是他在群访中对整个行业的评价——一句很轻描淡写的话:「人才密度较低。」翻译一下,就是火山和字节,觉得自己在这个赛道上是「降维打击」。
这种自信不是没有道理的。
字节系有两个别人没有的东西:一个是豆包 App 积累的海量交互数据和情绪模型(3 亿日活不是白来的),另一个是今日头条和抖音体系沉淀的,内容数据和信息清洗能力。这些资产用在车载场景里——比如让 AI 带你做冥想,它从网上学来冥想的流程、话术、配乐,然后结合车内的氛围灯和座椅调节——这种跨域能力不是传统汽车供应商能复制的。
但火山也有自己的短板。
火山引擎在北京车展的展台|图片来源:极客公园
700 万辆搭载量虽然是「第一」,但其中大部分是标准 API 接入,真正做到 CPP 级别深度合作的标杆客户,还在打造中。数据好看,但深度还不够。 这也是为什么火山高管在群访中反复强调「ToC 的用户体验」和「社会价值」,而对短期商业闭环的问题打了很多太极。
这场 MaaS 大战的本质,其实不是谁的模型更强——真正的胜负手是谁能把「服务闭环」做得更深。 火山的优势是 C 端生态和内容数据,阿里的优势是 B 端客户关系和云基础设施,腾讯的优势是社交生态和支付。
谁能赢?现在下结论还太早。但有一点可以确定:Agent 上车这件事,正在把汽车产业的竞争维度从「硬件制造」拉,向「软件生态」。
而在这个新战场上,传统车企的话语权,可能比他们想象的要小。
尽管车展上 Agent 上车的声量震天响,冷静看,目前真正的 AI 原生架构,在行业里几乎没有量产交付的案例。即便是合作了一年半的荣威和火山,也才走到 CPP 的 runtime 层,真正能控车、能主动服务、能持续学习的智能助手,预计最快也要到今年年底才能跟用户见面。
但这恰恰说明了一件事:大家终于不再满足,只是给车里塞一个聊天机器人了。
从 Chatbot 到 Agent,从「接 API」到「建 runtime」,从「语音助手」到「整车大脑」——这条路确实很长。但至少在这一届北京车展上,我们已经看到了行业转变的信号,而一旦 Agent 上车的能力,给消费者带来跨时代的体验,汽车行业无疑会再次迎来猛烈的进化。
毕竟,在中国这个神器的市场上,即便是大爷大妈,都是会拿着电脑让人帮忙装「小龙虾」的。
*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO