自动驾驶技术实现落地的过程中,多场景的应用已成为重要方向,而场景数据随之成为了技术研发中的最大诉求。不过,随之而来的还有对“有效数据”的定义之争,在“数量”与“质量”孰轻孰重的观点交锋背后,不同的自动驾驶技术路线就此显露。
“我们不可能获得无穷无尽的数据,更重要的是通过比较可观的数据,(研发出)能处理绝大多数(场景的)机器学习能力,(让机器)学到绝大多数的应用场景或者说百分之百的应用场景。”7月10日举行的世界人工智能论坛智能出行分论坛上,Auto X创始人肖健雄说道。他同时强调,与行驶数据的量级相比,有效数据的“质量”更重要。
“比如说特斯拉,你有10个120万像素低分辨率的摄像头,(摄像头记录的)简单的一些类似行车记录仪的数据对于Robotaxi(共享无人车)(的研发)基本上没有任何作用。”肖健雄说道。
他表示,不是特斯拉有越多的车、数据量越大就能实现车辆的人工智能。“特斯拉硬盘空间和网络带宽非常小,网络流量又很贵,数据基本上是现场采集现场扔掉,基本没有任何作用”。
这一观点显然与目前“特斯拉是数据资产时代最大矿主”的观点相左。
针对“数据资源”进行的开采竞赛,一直被认为是车企掌握高等级自动驾驶技术的关键。中汽协秘书长助理兼技术部部长王耀曾在接受包括经济观察网在内记者采访时表示,特斯拉“压着产品成本做汽车销售”的本质就是做数据策略(即通过降低价格的方式占有市场,从而采集大量行驶数据)。
但同时,王耀也强调了自动驾驶数据的有效性。他表示,由于采集到有效数据的概率会随着数据量的累计而逐渐降低(这源于自动驾驶数据采集过程中,更多的有效数据是难以处理的特殊场景下的边角案例,而非正常行驶数据),有效数据的积累会呈现“长尾效应”。
由此,中汽协推出汽车大数据区块链平台(Vehicle Data Block chain Platfor,简称VDBP),以实现车企间的数据交互,这被认为将促使中国企业对数据的开从“孤军奋战”走向“合作共赢”。
事实上,各家车企都在进行对自动驾驶数据的收集。去年4月,特斯拉宣布称其自动驾驶数据累计超过30亿英里(约48.2亿公里);去年底,蔚来汽车自动驾驶数据累计突破1亿公里;今年5月,小鹏汽车宣布其自动驾驶数据累计突破五百万公里。
由此来看,特斯拉成为自动驾驶数据资源领域最大“矿主”并无不妥,为何两方观点却截然不同?从肖健雄的表述来看,这是双方对有效数据的定义有所差别导致的。
肖健雄认为,数据的有效性来源于配备多个传感器的汽车对周围数据的采集,这种“有效性”不在于路程和车辆数量的多少,而在于采集数据的完备性、精确性。“现在能实现无人驾驶的车里面,每台车都有50个传感器。传感器一定要够,不够绝对没有办法无人驾驶。而且不只是个数的问题,比如说连物体都没有精确地看到,那不可能无人驾驶。”
同时,肖健雄表示,高质量的数据只有在有效进行了高分辨率的高清仿真,并在仿真器里多次使用后,才能真正发挥数据能力。也就是说,数据有效性的定义由“数据质量”与“数据仿真”有关,而并未强调行驶路程的多少。
与之相反,王耀的观点是,数据的有效性在于其是否是难以处理的特殊场景下的边角案例,即出现在大量普通自动驾驶数据中的特殊数据。由于该定义下的有效数据产生于大量普通数据之中,具有不确定性和偶然性,故需要大量行驶数据作为支撑。
两种“有效数据论”背后是自动驾驶技术研发的两种路线。据悉,肖健雄所在的Auto X主攻的方向是“无人驾驶”,即自动驾驶定义中的L4级别(完全无人驾驶)。而王耀所提出的“有效数据论”则是车企对自动驾驶技术研发的常规做法,大多位于L2-L3的有条件辅助驾驶区间。
2021世界人工智能大会开幕的前一天,肖健雄就曾在第五代全无人驾驶系统AutoX Gen5的发布会上表示,辅助驾驶与无人驾驶是完全不同的概念,各自技术的要求是不一样的。他将辅助驾驶与无人驾驶比喻为飞机和火箭,以此阐释两者的技术差异。
实际上,业界中不止对自动驾驶技术中数据采集的不同路线有所争论,在数据储存监管、自动驾驶上路规定、用户数据权利等方面都存在不小的争议。
近段时间内,伴随着包括《数据安全法》、《汽车数据安全管理若干规定(征求意见稿)》在内的一众法规或意见稿的密集发布,更多的争议声正在涌现。