在过去几年,智能驾驶行业的竞争焦点经历了显著变化。最初,竞争集中在硬件层面,包括是否配置激光雷达、摄像头数量以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-行为)和 World Model(世界模型)等技术路线。
如今,越来越多的公司认识到,仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的关键,在于模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。这也是促使更多车企选择自主研发的原因。
特斯拉几乎覆盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全链条。在国内,小鹏、蔚来以及理想等品牌也在不断向更底层技术领域延伸。
在今年发布的L8和L9车型上,理想汽车已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的一个重要技术方向。基于马赫M100,理想汽车也运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得关注的问题并非“是否进行自研”,而是这些投入能够实际解决哪些挑战。
带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了交流。他们阐述了理想汽车对下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系以及AI基础设施背后的设计理念。以下为经过编辑的部分访谈要点:
问:为了在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面努力?
**詹锟:**我认为在追赶FSD方面,需要从两个层面来看。
首先是基础体验,具体体现在三个方面:安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感、效率和舒适度方面表现出色,这是其核心优势。即使不选择极具挑战的道路,也能达到这样的基本水平。
其次是能力层面,这同样难以追赶。例如,特斯拉能够礼让特殊车辆,其在极窄通行场景下的感知精度极高,并且能够识别交警指挥,这些能力非常强大。
在能力方面,存在架构升级的机会。为什么只有特斯拉拥有这些能力?这可能与过去的范式限制有关,也与架构和数据有关。我们在这些方面进行了大量尝试。
问:我理解马赫VLA是一个技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language,语言)部分?
**詹锟:**当前自动驾驶架构的共同趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)整合。
从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到Language。因此,Language必然存在,关键在于如何使用它。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 更加合理,它有助于理解空间、感知三维空间以及服务于环境。Language 确实有用,在理解环境、交通、指令以及进行复杂决策时都具有价值。
从长远来看,基于Vision和Language的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是L3、L4级别,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。此时,语言的重要性将日益凸显,这也是未来需要巨大算力的原因。
如果模型仅具备Vision和Action(视觉和动作)能力,即使拥有大量数据,在遇到分布外的场景时也会束手无策。动物即使学会了所有常见情况,在面对从未见过的情况时也会不知所措,无法做出正确选择。
我们认为,越往L3、L4级别发展,解决的问题越接近90%、95%、98%之后遇到的那些从未见过的问题,这需要模型具备类似人类的思考能力。而实现类似人类的推理和思考能力,其来源是语言模型。例如,面对交警的手势,需要理解其意图,这并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?
**詹锟:**首先,数据的量必须足够大,核心在于收集更多的Corner Case(长尾场景)。目前,业界有多种方法,例如在车端部署神经网络触发器(neural trigger),用于判断场景的难易程度,并将关键数据回传。这也是特斯拉目前表现强大的重要原因之一。
其次,数据的质量至关重要,尤其体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都必须关注Action的行为质量。行为的干净度和一致性非常重要。
至于数据规模增加后边际效应是否衰减,首先,只要模型能力不断提升,只要我们朝着100分的目标迈进,其增长曲线必然是“对数曲线”,呈现逐渐衰减的趋势,而非线性增长。任何AI公司都面临这种情况。虽然后期数据收敛的速度确实会放缓,但我们希望通过规模化来加速这一过程。
问:马赫M100能够运行在不同的AI场景下。五年后,或者再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为舱驾一体的核心在于AI算力部分,其他部分是否一体化则不那么关键。因为座舱系统和AI智驾系统可以完全独立,但AI算力可以集中处理,从而提高效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在该中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地完成,而是在Token Provider Server(Token供应服务器)上进行,车内的情况也类似,会有一个Token Server(Token服务器)。
这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智驾任务的确定性——无论是内存还是带宽,都能保证不被其他任务干扰,这是通过软硬件协同设计实现的。
问:是否因为M100采用了数据流架构的AI推理芯片,所以相较于其他厂商的自动驾驶芯片,其对带宽的需求较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非设计SRAM容量(而非显存)的直接原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多方面因素权衡的结果。
不同的架构设计,不能仅凭一两个指标进行简单对比,这是不合理也不专业的。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,而是取决于整个比赛的表现。
问:为什么目前的大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上实现了这一点?这是为什么?
**谢炎:**本质上,座舱(舱)和智驾(驾)是两个独立的系统。特别是对于高端L3向L4的升级,智驾需要一个更高确定性的系统,包括专属的内存和计算资源。在这种情况下,融合的意义就大大降低了,因为资源无法实时切换,实时切换会影响确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两颗芯片集成在一起,资源仍然是分开的,并不会降低成本,甚至可能影响效率。
目前市面上的舱驾融合系统,它们仍然是分开的。无法做到一会儿运行座舱任务,一会儿运行智驾任务。如果做不到这一点,将两颗芯片集成在一块,晶体管数量可能不变,只是节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
我的观点是,随着智驾系统越来越高端化,舱驾融合这件事的意义可能并不大。如果将这些芯片设计得更靠近,集成在一块板上形成小型化集成方案,这是可行的,不一定非要做成一块芯片,也可以是多块芯片集成在一块。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?当前自动驾驶迭代速度很快,芯片要持续迭代需要什么样的条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有几十亿到上百亿的投入,才足以支撑芯片的研发。第二个条件是,所研发的芯片必须能够提升产品的核心竞争力。
许多人认为芯片需要有巨大的出货量才能实现规模效应。实际上,芯片的成本与其面积相关。一辆车上的智驾芯片,例如理想汽车的L7/L8/L9使用的是两颗马赫M100,总面积约800平方毫米。而一款高端手机芯片的面积约为100平方毫米,因此一辆车的智驾芯片面积相当于8部高端手机的芯片面积。
这样计算下来,几十万辆车的晶圆面积需求非常大,足以摊薄成本。因此,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器的难点在哪里?攻克它花了多长时间?
**谢炎:**在流片之前,甚至在设计阶段,我们就开始了编译器的工作。在流片之前,我们已经完成了许多模型的运行验证。
数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩大到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模的并行调度问题。






李女士
回复壹号娱乐(中国)官网,自2012年成立以来,始终秉持“赋能客户,实现价值最大化”的使命。我们坚信,通过专业的咨询服务,能够帮助企业应对挑战,抓住机遇,实现长远发展。
王先生
回复我们的核心优势在于深度行业洞察,能够为客户提供真正量身定制的解决方案。我们不仅是策略的提供者,更是您实现商业目标路上的可靠伙伴。