对特斯拉死磕的“纯视觉路途”,笔者不时是持质疑态度的。质疑的点在于:算法的提高,能补偿摄像头物理性能的局限性吗?比如,视觉算法足够牛逼时,摄像头就有测距才干了?早晨就能看见了?
前一个不懂,在2021年7月份被消除——过后,特斯拉被曝已开收回“纯视觉测距”技术。然后一个不懂,则继续存在。
笔者甚至一度以为,假设把摄像头类比为人眼、把视觉算法类比为人的大脑中“跟眼睛配合的那一部调配置”,那么,“视觉算法足够牛逼时,就可以不要求激光雷达”这种观念就相当于说“只需我的脑子足够痴呆,眼睛高度远视也没相关”。
但前段期间,马斯克提到的HW 4.0将“干掉ISP”的方案,却推翻了笔者的认知。在接受Lex采访时,马斯克说, 接上去特斯拉全车摄像头的原始数据不会再经过ISP 的处置,而间接输入FSD Beta 的 NN 推理, 这将让摄像头变得超紧急弱小。
带着这一话题,笔者跟地平线BPU算法担任人罗恒、于万智驾CTO刘煜、均联智行首席架构师汪浩伟、挚途科技首席迷信家黄浴、车右智能联结开创人等诸多业内专家都做了一系列交换,然后明确,自己先前的那些质疑,纯属“自作痴呆”。
视觉算法的提高,确真实一步步拓展着摄像头物理物理性能的边界。
一.何为ISP?
即图像信号处置器,是车载摄像头的关键形成组件,关键作用是对前端图像传感器CMOS输入的信号启动运算处置,把原始数据“翻译”成人眼可以看懂的图像。
深刻地说,只要依赖于ISP,驾驶员才干借助摄像头“看”到现场细节。
基于第一性原理,智能驾驶公司也用ISP,关键是依据周围环境的实践状况对摄像头数据启动白平衡、灵活范畴调整、滤波等操作,以取得最佳质量的图像。例如,调理曝光以顺应明暗变动,调理焦距以专一在不同距离的物体等等,尽量地让相机性能凑近人眼。
(图为特斯拉的FSD芯片)
不过,让相机“尽量凑近人眼”显然还不可满足智能驾驶的需求——算法要求摄像头在强光及弱光等人眼也“失灵”的场所下也能反常上班。为了成功这一指标,有的智能驾驶公司不得不专门定制能增强摄像头在强光、弱光及搅扰状况下性能的ISP。
2020年4月8日,阿里达摩院发表附丽其独有的3D降噪和图像增强算法自主研收回用于车载摄像头的ISP,保证智能驾驶车辆在夜间领有更好的“视力”,“看”得更明晰。
据达摩院智能驾驶试验室的路测结果显示,经常使用该ISP,车载摄像头在夜间这个最富裕应战的场景下,图像物体检测识别才干相比业内干流处置器有10%以上的优化,原本含糊不清的标注物也得以明晰识别。
二.干掉ISP的动机及“可行性”
但是,ISP的设计初衷是为了在多变的外部环境下取得一张“难看”的图片,但这终究是不是智能驾驶最要求的图片方式,业界尚无定论。按马斯克 Elon 的说法,神经网络不要求美丽的图片,它要求的是传感器间接失掉的原始数据、是原始光子计数(Raw photon counts)。
在马斯克看来,无论ISP驳回何种处置方法,总有一部分原始光子在经过镜头抵达CMOS、转换成可见光子的环节中会被失落。
对于原始光子失落与未失落的差异,挚途首席迷信家黄浴说:“光子转化成电子信号时刻,确实有噪声被克服了,更不用说ISP对原来的电信号做了很多处置。”
车右智能联结开创人在《From photon to control——从光子到控制,Tesla的技术口味越来越重》一文中拿人眼对感知消息的处置做类比,做了比拟详尽的解释,在此摘要如下:
(图片摘自群众号“车右智能”) 如上图所示,人类的视觉系统和电子成像系统在逻辑上是齐全分歧的。视网膜色彩和像素矩阵其实是更可以代表外部客观环球的消息,而真正的人类感知色彩,是要求大脑(同等于ISP和更上层的后端处置)的介入的。
(图片摘自群众号“车右智能”)
上图左侧是一幅规范的带有饱和度突变和强度突变的色彩图,右侧是其对应的带元色彩的原始图幅。对比可见,以人类视觉感官为**而设计的成像系统会给咱们提供愉悦和合乎人类客观的图像消息,却未必全真反映客观的真实环球。
马斯克以为,为了做得“更难看”、更适宜“给人看”,很多原本很有用的数据却在ISP担任的“前期处置”环节被处置掉了。但假设只是为了给机器看,这些被处置掉了的数据其实也是有用的,因此,假设“前期处置”这一步可以被省略,则有效消息量便会参与。
按于万CTO刘煜的解释,马斯克的逻辑是:
1.由于有了更丰盛的原始数据,未来,相机的探测范畴或许比人眼大,即光照强度很低或许很高的时刻,咱们人眼或许就看不见了(由于太黑或许太亮),但机器依然可以测光子数量,因此依然能有图像输入;
2.相机对光照强度的分辨率或许更高,即看上去很相似的两个光点,人眼或许分辨不出那么粗大的亮度或许色彩差异,但是机器或容许以。
某AI四小龙工程师的解释是:好的摄像头的灵活范畴比人眼大很多(在相对运动形态下),即摄像头能观测到的“从最亮到最暗”的范畴,比人眼所能观测的更宽。在极暗的条件下,人眼看不到什么物品(简直没有光子),但是摄像头的CMOS可以接纳到很多光子,因此能看到光明形态下的事物。
多位专家在接受《九章智驾》采访时均表述认可马斯克的逻辑。
地平线BPU算法担任人罗恒解释道:“特斯拉如今的数据标注有人工标注和机器智能标注两种,其中,人工标注其实并不全是基于的图像消息,也蕴含了人类对环球的常识,这种状况下,机器雷同有概率应用消息更丰盛的原始数据;而机器智能标注是结合预先观测、结合少量几何剖析分歧性得出的,假设经常使用原始数据,机器有很大略率找到更多的相关性,做出更准确的预测。”
除此之外,均联智行首席架构师汪浩伟解释道:“特斯拉在原始图像数据进入DNN网络前就对其做了拼合,因此,就不要求对每个摄像头的感知结果做后处置。”
经过干掉ISP来优化摄像头在夜间的识别才干,这看起来跟阿里达摩院自研ISP的思绪是相反的啊。那么,这两者矛盾吗?
据曾某智能驾驶公司视觉算法专家解释:两家的诉求其实是相反的。在实质上,无论阿里达摩院还是特斯拉,都是宿愿经过芯片和算法的配合来优化摄像头的才干。
但两者的区别在于,阿里达摩院的思绪是,为了人眼能看到,对原始数据启动了各类算法处置和增强;而特斯拉则是去除了算法中为了“关照”人眼所做的那部分数据处置,转而开发了用于参与摄像头在弱光下及强光等环境下的算法所需的数据及相应才干。
除此之外,马斯克还说,不经ISP 处置可以成功 13 毫秒的提前降低,由于有 8 个摄像头,每个摄像头 ISP 处置会发生 1.5 - 1.6 毫秒的提前。
一旦马斯克这一想象经过通常验证是可行的,其余芯片厂商应该也会“跟进”。甚至,有的芯片厂商曾经在这么做了。
如安霸中国区总经理冯羽涛1月份在接受焉知采访时就提到:“假设客户想把原始数据间接喂进神经网络启动处置,CV3 齐全可以允许这种方法”。
三.摄像头的“物理性能”也要求优化
并非一切人都齐全置信马斯克这一方案。
某头部Robotaxi公司技术VP说:“特斯拉说的也没错,但我感觉算法的开发难度会十分大、周期会很长,然后开发的期间或许会十分久。假设加个激光雷达,首先可以间接把三维的疑问处置了,拿纯视觉去构建三维当然也可以,但要消耗很多算力。”
车右智能联结开创人以为,马斯克是个“怂恿巨匠”,“他的宣传方式是把你搞晕,让你不禁自主地发生技术崇敬”。
他说:“有的图像学专家以为丢弃一切ISP级别的后处置是不事实的,比如失掉强度和色彩的debayer图像,会给后续的NN识别head形成很多艰巨。”
在《车右智能》最近的一篇文章中提到,原始数据染过ISP间接进入神经网络的方案在哪种场景下可行?是可以兼容特斯拉现有的摄像头还是要求更好的视觉传感器?能否存在于FSD beta所有的NN head义务还是部分NN head义务?这都是不确定的答案。
咱们再回头笔者扫尾提出的那个疑问:视觉算法的优化,能打破摄像头的物理性能自身的瓶颈吗?
某视觉算法背景的Robotaxi公司CEO说:“逆光或许是车辆从隧道里进去突然面对强光时的感知,人眼很难处置,摄像头也不行,这个时刻,就必定要有激光雷达了。”
刘煜以为,通常上,假设你不计老本,可以造一个摄像头,性能是可以超越人眼的,“但咱们如今这些车上用的这种低老本的摄像头,仿佛还远没有到达这共性能级别。”
弦外之音,处置摄像头在弱光或强光下的感知,并不能仅靠视觉算法的优化,还得围绕着摄像头的物理性能“做文章”。
如摄像头若要在夜间探测指标,就不可经过可见光成像,而是得基于红外热成像原理来做(夜视摄像头)。
某“AI四小龙”工程师以为,photon to control十分有或许象征着特斯拉跟HW 4.0芯片搭配的摄像头会更新成多光谱。
这位工程师说:,行车摄像头都将非可见光部分滤去,但事实中,物体收回的光线光谱十分宽泛,可以用来进一步区分物体特色。比如红色的货车和白云,在红外波段可以被随便区分;有行人或许大型生物防撞,用红外摄像头会比拟容易,由于恒温生物身材收回的红内线是很容易区分的。
《车右智能》在文章中也提到了这样一个疑问:Tesla能否会针对photon to control的概念而更新相机配件,推出真正的光量子相机,或许还是基于现有的camera启动ISP旁路?与此同时,作者也指出,假设摄像头配件也要更新,“那特斯拉将不得不从头开局齐全从新训练其神经网络算法,由于输入是如此的不同”。
此外,无论摄像头技术如何提高,或许都不可解脱鸟屎、泥水等脏污的影响。
激光雷达驳回的是主动光源,先发光、再接纳光,像素点很大,普通的脏污很难将其齐全遮挡掉。据某激光雷达厂商提供的数据,在外表有脏污的状况下,其激光雷达的探测距离只衰减15%以内;而且,有脏污的时刻,系统会智能收回警报。但摄像头是主动传感器,每个像素点很小,很小的灰尘技艺挡住几十个像素,因此,在外表有脏污的时刻就间接“瞎了”。
假设不能处置这个疑问,那试图经过视觉算法的提高来省掉激光雷达的老本,岂不是个妄想?
几点补充:
1.芯片厂商怎样设计只是疑问的一个方面,但客户假设没才干充沛应用好原始数据,他们也不可绕过ISP
2.哪怕芯片厂商和客户都有才干绕过ISP,在今后相当长一段期间里,少数厂商依然会保管ISP,一个关键要素在于,在L2阶段,驾驶责任主体依然是人,而ISP处置后的消息显示到屏幕上,繁难交互,也可以给驾驶员“安保感”。
3.要不要绕过ISP,依然是“纯视觉派”与“激光雷达派”两种技术路途之争的间断,对此,上文提到的Robotaxi公司技术VP的观念很有启示性:
其实纯视觉方案跟激光雷达方案并不是拼“谁行谁不行”,真正拼的就是纯视觉方案算法开发能开发到激光雷达方案这种水平要多常年间,以及激光雷达的老本降到跟纯视觉方案老本差不多的时刻要求多常年间。简言之,是前者的技术提高快,还是后者的老本降得更快。
当然,若日后纯视觉派要求参与传感器,而激光雷达派要求缩小传传感器,算法遭到的影响有多大、修正算法要求多常年间、老本如何,这些都是有待进一步观察的疑问。