来源 理想TOP2
2024年6月8日,李想在重庆作了关于理想汽车自动驾驶技术突破的脱稿演讲,李想专门强调了是自动驾驶,不是智能驾驶,不是辅助驾驶。
李想讲的内容核心框架实际上和理想汽车智能驾驶技术研发负责人贾鹏2024年3月底在英伟达GTC 2024上讲的内容是完全一致的。
脱稿+举的例子不一样表明了李想是完全搞懂了自动驾驶技术路线核心框架的。
李想提到基于现有的计算平台,有监督的L3级别自动驾驶100%可实现,最早今年年底,最晚明天年初就会全量推送,无监督的L4自动驾驶三年内一定可以实现。
理想汽车的自动驾驶路线核心思路是用一颗Orin X芯片用于端到端,一颗Orin X用于VLM,端到端为系统一,处理所有的正常的自动驾驶,VLM为系统二,来解决兜底和泛化的能力。
软件2.0与1.0最大的区别是1.0本质是具备功能,2.0是具备能力。功能是通过测试和实验来验证,而理想汽车通过生成式的世界模型来对自动驾驶能力进行考试。
李想脱稿演讲全文:
今天跟大家分享做的一个重要的技术的一个突破,是关于自动驾驶的技术的突破。我这里强调一下,我讲的是四个字是自动驾驶。对,然后不是智能驾驶,也不是辅助驾驶,我觉得这是最关键的。那我们自己我们自己内部是从去年的九月份开始,来思考一个问题,并专门建立了一个用于自动驾驶研究的一个团队。就是一个最简单的一个问题,人类开车为什么不涉及学习corner case?如果我们不能解决这个问题,所有的自动驾驶团队每天干的活都是靠人工去调试各种各样的corner case。而且放的人越多,corner case越多,然后合作真正的自动驾驶就越遥远。
这里边最核心的一个原因是,当人工智能技术在不断的发展的时候,我们会发现其实人类开车的方式不是我们过去的这么多年里,用了自动驾驶的研发的一个方式,这是一个根本的一个不同。因为人开车没那么辛苦,没那么累。不需要养几千人的团队去搞corner case,而且团队越多corner case又越多。所以这时候我们就从理论和技术的两个角度去研究。人类到底怎么开车的。新的技术如何解决人类开车的解决自动驾驶自动驾驶开车的问题。
首先其实从理论的角度,我们先是从一本书里得到了一个启示,这本书叫《思考快与慢》。思考快一慢来讲述了其实我们日常的时候,大脑在工作的时候是分为系统一和系统二。然后系统一来处理一些直觉,快速响应的事情。事情其实就像我们在开车,很多时候我们在开车开了10分钟、20分钟、30分钟,其实脑子里在想别的事情。但是我们仍然能够在处理路上的各种的路况,甚至开到家的时候忘记了,过去这半个小时我们是怎么去工作的。其实这时候就意味着我们在用系统一在工作。
其实并不是我们的大脑并没有不在工作,是我们大脑以一种它独有的方式,低能耗的方式在工作。当当我们去到一个复杂的,比如一个十字路口卡死了,或者我开到一个地方遇到一个水坑,那这时候我就会调用自己的大脑系统二来工作,他来处理这种要复杂的逻辑的推演的这样的一个能力。但是他对大脑的消耗是比较大的,所以大家不会一直用系统二的方式来进行开车。但是解决各种复杂路况,解决泛化的问题,解决未知的问题,然后大脑会启用系统二来工作。所以正常的话,如果我们看我们开车的话,基本上90%时间在使用系统一,5%的时间在使用系统二。
所以这么的话,人脑每天并不需要很多的工号,然后人也不需要学习corner case,就能学会开车。那这时候我们在想,如果是这样的人类的一个工作方式,那自动驾驶应该怎么工作呢?什么是自动驾驶的系统一,什么是自动驾驶的系统二?那我们自己随着对各种技术的研究,自动驾驶的系统一其实就是今天很多的自动驾驶团队都在做的端到端的这样的一个技术。端到端就意味着其实我们把完整的训练片段放进来,最后产生的结果是输入直接产生输出。而不是像过往的一个感知的模块,一个规划的模块,一个决策的模块,一个执行的模块,那这样的效率更高。但是他的挑战也来了,也不需要各类各种人类的规则在里边,也不会发挥作用了。
它的挑战主要来自于三个方面。第一个你要有真正会做端到端,也包含这方面的数据训练的人才。第二个需要真正高质量的数据。我觉得第三个是需要足够多的算力。因为端到端对于算力的需求和以往是变得完全不一样了。
我们在端到端方面的做的过去在做的整个研究的测试,是我们大概放入了100万的clips,用于端到端的训练,大概只需要做大概十轮左右的,就一个月10轮左右的训练,卡要足够多,基本上就可以完成一个无图Noa相同的一个上限的水平。所以我觉得这是第一点。但是面对中国的复杂路况,其实只有端到端是不够的。我们要去思考什么是系统二。系统二的启发在于什么呢?系统二的启发在于其实解决各种各样的corner case和各种的泛化的这样的一个问题。然后人类并不是通过学习corner case的。
这里边最明显的一个案例,一个启发什么呢?是我的爱人,我爱人刚学会开车很长的一段时间,连续好多年。其实她不停的剐蹭,你跟她分析下一次怎么不再剐蹭,其实没有用。但下一次还是是剐蹭,我们就在想是不是因为我买的车,这个车的个头太大了,一辆宝马X6,所以我换一辆小的车,换一辆高尔夫GTI仍然去剐蹭。那怎么说其实都会剐蹭。这时候我们会发现,其实学习corner case没有用。我们能不能通过提升能力的方式?
所以当时我做了一个挺重要的一个判断是给我爱人,然后报什么呢?报宝马驾驶培训的初级班。对,然后宝马驾驶培训初级班一整天其实通过各种各样的方式只教了两个。第一个是无论是你在赛道上过弯,还是你在绕桩,还是在处理环形的这个路面的时候,你在打转向之前,你的眼睛看往哪里,不是看你要通过的路口,而是看对你接下来要去的地方。这是用各种各样的方式来教我们在开车的时候如何去看路。
另外一方面,宝马的驾驶培训班还交了另外一个能力,就是在各种复杂的场景里如何把刹车踩到底。包含在湿滑的路面,在转弯的路面,在一半钢板一半道路的路面,如何能够把刹车踩到底,从而提升一个人对于整个刹车能力的认知。所以整个的宝马驾驶培训的初级班,一整天的时间只教了两个事情。第一个是教你看路的能力,第二个是教你刹车的能力。对他没有教任何的corner。
只经过这么一天的训练,然后我爱人就彻底和剐蹭告别了。在接下来的十几年里边,没有出现过任何的剐蹭。所以我说这是人类其实学习的一个方式。
我们再考虑说如何把这样的能力给到车上。然后我们看到一个很重要的一个技术是VLM,就是视觉语言模型。为什么不是视觉大语言模型?是视觉语言模型是因为我们没有办法把一个大模型在云端让车来使用。因为这个响应速度就会车毁人亡了。所以我们还是其实如何把一个世界大语言模型进行足够的压缩,然后最后能够放到车上去。它能够再面对一个没有红绿灯的左转路口,提前做出预判。然后来知道我这个路口如何进行特殊的处理,进行复杂的处理。
它还有另外一个重要的功能,就是告别高精地图,也告别所有的轻图在内的方式。为什么呢?因为视觉的语言模型还有一个最重要的功能,是能够像人类一样去读懂导航地图。包含导航地图的横向纵向速度,然后时间还要包含红绿灯的,哪怕有车辆的遮挡,其实红绿灯也不会再成为问题。所以我们会发现其实可以有效的通过世界语言模型,来解决系统二的问题。一方面为端到端进行一个兜底,另外一方面能解决各种各样的泛化的问题。所以我们就发现非常有意思。我们的车的AD max有两个芯片,有两颗Orin X的芯片,正好一颗Orin X芯片可以跑端到端,另外一颗Orin X芯片可以跑可以来运行。一个压缩到大概20亿规模的一个VLM的模型。
那整个的结果,我们的验证的一个结果其实是非常兴奋的。我们认为最早在今年年底,最晚在明年的上半年,真正的这种L3,我对L3的定义是有监督的自动驾驶,就可以批量向用户交付了,而不是只是用于在做实验。
解决这两个问题以后,其实还有第三个问题。对,因为端到端是个黑盒子,然后VLM其实也是黑盒子。它跟过去的时候我们在做智能驾驶,做辅助驾驶一个很大的不同是它不再是功能,它是能力。我觉得AI最大的差别是能力。而过去的编程体系最重要的是功能,功能是要通过测试和实验来验证的。但是能力一个黑盒子怎么拿测试和实验来验证是不可能的。所以这时候的一个新的挑战就是我们用什么样的技术方式来验证能力。
这时候我们又找到了一个新的一个方式,其实主要的这个原理是来自于Sora,就是我们用Diffusion Transform的方式来构建一个重要的一个小型的世界模型,会拿这个世界模型,然后让我们的车在里边进行考试。所以这么着其实我们模拟人的一套真正的工作原理就开始呈现了。然后端到端来承载人的系统一,然后VLM来承载人的系统二,系统一来解决所有的正常的自动驾驶。这些反应,这些驾驶的能力,然后系统二来解决兜底和泛化的这种能力,并应用生成式的这种小的世界模型来进行考试。这是我们在过去的一段时间里,做的最重要的一个技术性的一个突破。而且我们的研究团队已经完全通过了正常的研究的验证。那接下来的我们会怎么样呢?
我们会在三季度正式推我们的全国的无图Noa的时候,也会向我们的测试用户来推。我们大概通过300万的clips来训练出来的。刚才的然后端到端加VLM,然后这样他一套的我认为是监督型的自动驾驶的体系。我们认为其实最早的话会在今年的年底,最晚明年年初,我们会大概推出通过超过1000万的clips的训练,端到端加VLM的整个的带有监督的自动驾驶的体系。我们认为这套VLM加有端到端加VLM,再加这种生成式的验证系统,也会是未来的整个物理世界机器人最重要的技术架构和技术体系。在接下来的一段时间里,包含最近本月还有下月的几个关键的AI方面的技术论坛里。我们的这个技术研究的同事也会向整个的行业来分享我们对这方面的所有的研究。这里边的原理和实际的结果,能够把我们进行的一些探索,能够与同行们进行有效的一个分享。
另外一方面就是说我刚才讲的,我们会在七月份到最早年底,最晚明年年初,把这样的技术带给真正的用户。通过这样的技术,我们可以确定的坚信一件事情,就在现有的计算平台上,带有监督的L3级别的辅助驾驶,L3级别的自动驾驶是百分之百可以实现的。而且随着这套技术的演进,算力的增强,模型的加大,对我认为无监督的L4自动驾驶也会在至少三年内一定可以实现。
好,谢谢大家。