对话商汤王晓刚:自动驾驶借助强化学习将超越人类,今年商业化迎爆发
搜狐科技高端访谈栏目《1号位》与知名企业家、公司高管展开深度对话,本期我们邀请到商汤科技联合创始人&首席科学家、商汤绝影CEO王晓刚。
出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
“今年会是加速发展年,市场将迎来爆发。”
在近日举行的全球开发者先锋大会期间,搜狐科技对话了商汤科技联合创始人&首席科学家、商汤绝影CEO王晓刚,这是他对自动驾驶商业化做出的最新判断。
他做出这个判断的依据主要有两点,一是自动驾驶已经下沉到十万元以下的车型,行业迎来市场爆发期和拐点。
另外一个,就是技术的发展。过去两年,自动驾驶厂商和车企,都在追求基于端到端的大模型,使得自动驾驶的能力持续突破。
不过,王晓刚表示,这种端到端路线也有局限,非常依赖数据,且本质仍是模仿学习,很难突破人类驾驶水平的天花板。
但AI技术范式的突破,为自动驾驶技术范式提供了新思路。最近火爆的DeepSeek基于纯强化学习的长思维链涌现,打破了数据瓶颈,为自动驾驶带来了突破可能。
王晓刚认为,有了强化学习的自动驾驶,可以用生成仿真环境的世界模型,跟端到端自动驾驶的模型进行协同交互,可以产生新的技术路线。
这次大会上,商汤绝影发布名为R-UniAD的与世界模型协同交互的端到端自动驾驶技术,其中就采用了强化学习。今年4月,这套方案将在上海车展上车展示。
王晓刚认为,这条新技术路线,能够解决原来数据不够和质量参差不齐的问题,还能够让自动驾驶超越人的驾驶水平,也能解决L3,甚至L4、L5高阶自动驾驶。
展开全文
不过,他也强调,自动驾驶需要一步步逐渐积累,没有所谓的终极解决方案,大家都是踩在前人的肩膀上往前走,技术会不断演进。
对于不少车企进军火热的机器人,王晓刚表示,两者体系通用,但今天机器人比较像自动驾驶十年前的早期阶段,热度比较高,实际落地还是有距离。
他表示,商汤在机器人领域不是很着急,先把在汽车领域的规模化做好,同时建立好自己的基础能力体系,当有一天能够规模化的时候,能够迅速把握住这个机会。
王晓刚预计,绝影三年内有望盈利,这需要80-100万的年上市量。目前,绝影的智驾方案已量产交付广汽埃安、一汽红旗等车企。
谈及爆红的DeepSeek对AI的发展影响,王晓刚表示,开源的价值非常大,而技术的发展是螺旋式上升,现在算法跑到了高点,但可能下个阶段,数据或算力会上来。
“DeepSeek只是语言大模型,接下来就是多模态。我觉得要找到有价值的、高难度的数据,这样才能产生很多有价值的知识出来。”王晓刚说。
以下是对话精编:
搜狐科技:商汤的世界模型“开悟”,跟杨立昆说的或跟英伟达的世界模型有什么区别?
王晓刚:主要差别是我们聚焦在自动驾驶领域,对模型的要求要做到精准可控。之前所有的世界模型跟端到端模型并没有交互,更多是拿来做数据的生成,现在开悟演进到跟端到端模型有实时在线交互,时空的一致性、时序都要能够保持,要求会更高。
搜狐科技:世界模型本质上是用来解决自动驾驶数据不够的问题?
王晓刚:不光是数据不够,还有数据质量参差不齐的问题。在比较复杂的场景里面,可能80%以上都是不好的数据,这对端到端模型的性能有非常大的影响。
有了强化学习以后,怎么处理呢?一个是模拟仿真,还有一个是reward function(奖励函数),不再是靠规则去筛选。它还可以有超越人类的行为,在复杂场景里可以不停去试,最终能超越人的驾驶水平。
搜狐科技:基于强化学习的世界模型,能让自动驾驶超过人类,新的挑战在哪?
王晓刚:从DeepSeek看,有了强化学习,打破了数据的瓶颈,产生了很多原来没有的知识。它把初中、高中的奥赛题都做完了,怎么再找到更好的问题,就是它进一步发展的瓶颈。模拟仿真跟端到端相结合,难点在于场景库,怎么提供各种复杂的场景。
搜狐科技:有观点认为,对自动驾驶来说,数据不是越多越好,过多的话是干扰,您怎么看?
王晓刚:这就看数据的质量。之前端到端最大的问题是,基于模仿学习的范式让它很难做出超出人类预期的行为表现,其预测和生成的轨迹、驾驶行为模式跟基于规则的预测差不多。
随着像Sora等视频生成的多模态技术突飞猛进,这扇门就能够打开。最终会变成多模态的双向协同,能识别理解和仿真生成,未来的大模型就会成为自闭环的体系。
搜狐科技:为什么想到把强化学习用到自动驾驶里面,从DeepSeek得到的启发?
王晓刚:我们在2018、2019年的时候,已经开始做强化学习。但当时数据仿真、世界模型比较弱,没有办法合成现实用到的数据。今天有了数据视频的生成,能够跟强化学习结合。
搜狐科技:自动驾驶需要很快决策,跟强化学习的推理、长思考能力,看上去好像有些矛盾。
王晓刚:强化学习是在训练阶段,实际部署的时候就没有世界模型的事了,直接是靠端到端来做。DeepSeek不是这样,它是在推理过程当中合成东西,所以中间的步骤还都有。
搜狐科技:自动驾驶原来有很多争议,这两年大家做端到端,有分段式,还有统一大模型。绝影是哪一种?怎么看这两种路线?
王晓刚:我们的R-UniAD是一段式的端到端,通过视频的输入直接输出轨迹。今天说智驾平权,要用更低的硬件成本去做,到底应该采用什么样的方法?就是根据现有条件,和数据、云端算力和终端部署算力相关。
所以有段时间,大家觉得端到端就是最终解决方案,今天看到好像又不是,又有数据的问题,数据多了也不好,很多数据不是好的驾驶行为,所以又有新的技术路径在演进和发展。
搜狐科技:您提到智驾平权,自动驾驶什么时候能迎来ChatGPT时刻,让更多人能用上?
王晓刚:普及的话,我觉得还是要靠已有的更加成熟的技术去完成。这大量还是基于规则,可能部分用到端到端模型,它会让现有的系统变得更好。随着技术演进,去做复杂的场景,就是在探索自动驾驶的上限,投入特别巨大。
搜狐科技:ChatGPT或DeepSeek对AI起到的普及作用,本质上还是因为技术突破。自动驾驶普及较慢,您觉得跟技术有多大关系?
王晓刚:这两个不一样,大模型实现了研发范式的跨越式发展。自动驾驶还是一步步逐渐积累,因为跟安全性相关,要让技术更加成熟,解决更多的问题,让大家对它更加依赖。
今天我觉得实现10万以内车型的渗透,更多还是技术的逐渐累积和打磨。用的人多了,反馈包括数据也会变多,系统更加成熟,而不是突然冒出来某一个产品,变得石破天惊的样子。
搜狐科技:所以自动驾驶出现不了ChatGPT时刻?
王晓刚:这还是一个非常讲究积累的事情,不像DeepSeek,解决问题很好,中间挂机了也没事儿。自动驾驶要经过长时间的实践,投入无数的工程资源,把漏洞补齐,要没有短板。
搜狐科技:前段时间,理想CEO李想说端到端不是自动驾驶的终极路径,只能解决L3,如果想要实现L4,必须用VLA大模型,才能达到泛化能力的要求。
王晓刚:VLA也是端到端智驾方案的一种,R-UniAD本质上也是端到端路线的一种跨越式演进。所谓的端到端,就是在推理阶段省去了中间的各个模块,把各种大模型、决策行为等进行统一集成,VLA比之前的端到端先进一些,但本质都是基于模仿学习的端到端路线,而我们现在发布的是与世界模型协同交互的端到端。
搜狐科技:如果往更高的L3,甚至L4、L5去走,绝影这次发布的方案还能解决吗?
王晓刚:肯定可以。更高阶的问题是在各种复杂的场景里面都能够比较好地处理,我们说的这些方案对场景的覆盖度、处理复杂场景的能力都变强了。
搜狐科技:技术的演化还是挺快,随着AI技术发展,自动驾驶也会衍生出很多不同路线,有没有终极的解决方案?
王晓刚:我觉得倒不是说路线不一样,大家都是在现有技术的基础上不断向前探索,只是步伐快慢的差异。我们做研究的常态,都是踩在前人的肩膀上往前走,很多“终极方案”其实就是相比现在更往前了一步,但技术发展和演化是不会停歇的。
搜狐科技:从L4或L5来看,随着技术往前走,我们距离这个阶段还有多远?
王晓刚:我们是一步一个脚印向着目标前进,R-UniAD是一个跨越式的演进,但也就是脚步迈得更大、更快一些。
L4既需要考虑特定场景的限制,还需要考虑用户体验。首先要确保安全性、接管率经过大规模量产验证,让大家能够放心,再往下一个阶段走。现在用少量量产车在特定场景实现了L4/L5的功能,这不是一个有说服力的论证方式,也不是智驾技术演进应该走的路径。车厂量产会起到非常大的作用,最后要有事实统计来说话。
搜狐科技:您此前提到,自动驾驶盈亏平衡需要三年,您说的是行业,还是绝影?
王晓刚:就是我们公司,如果年上市量达到80万到100万量级,基本上就足够达到盈亏平衡。从行业看,今年会是加速发展年。比亚迪今年目标500万台,其中60%以上有自动驾驶功能。其他各家都在跟进,今年会是市场爆发的年份。
搜狐科技:很多车企去做机器人,技术层面可能有共通之处,商汤会不会去做这块的探索?
王晓刚:它不光是技术,背后这套系统,还有基础设施体系都能共用。我们跟着客户走,车厂在做机器人的时候,我们肯定也可以提供方案。
但这件事并不是很着急,我们先在汽车行业规模化落地。今天机器人比较像自动驾驶十年前的早期阶段,热度比较高,但实际落地还是有距离。我们要做的是建立好自己的基础能力体系,当有一天能够搞规模化的时候,我们能够迅速把握住这个机会。
搜狐科技:DeepSeek出现以后,大家又看到了AI新的可能性。您从学生时代就一直做AI尤其是视觉研究,您怎么看AI的演进?
王晓刚:大模型弥补了原来强化学习的不足,现在反过来了,大模型发展遇到了瓶颈,又把强化学习引进来。所以它不是绝对的概念,是在螺旋式上升。
算法、算力和数据,今天突然觉得好像算力不重要了。这只不过是螺旋上升的时候,算法跑到了高点,本质是能够更好地利用算力了,但下一个阶段算力又会上来。
DeepSeek的启示不光是技术,它还开源。今天在竞争加剧的情况下,让我们看到开源带来的价值和影响力,别人想禁都无从禁起。
搜狐科技:从技术层面来看,您觉得大模型接下来要往哪方面去突破?
王晓刚:螺旋式上升,一旦打开一扇门以后,大家就做各种试错。这边稳定以后,马上加大算力去探上限,包括数据。
DeepSeek只是语言大模型,接下来就是多模态。我觉得接下来要在各个领域里面找到有价值的、高难度的数据,这样才能产生很多有价值的知识出来。
评论