展商动态 » 自动驾驶的眼睛+大脑:视觉雷达+强单车智能

2021年10月25日,特斯拉市值站上万亿美金,成为美股第五家市值破万亿的企业,几乎超过美股全部主要车企市值的总和。特斯拉在资本市场的成功,刺激着投资者的神经,也促使市场再一次将视野聚焦在自动驾驶领域,进一步思考自动驾驶技术路线的发展方向。

本文希望从技术角度客观分析和回答以下问题:自动驾驶等级提升需要解决什么关键问题?怎样的自动驾驶方案更加具有实现大规模无人驾驶的可能性?自动驾驶作为现实世界的AI问题,难点在哪里?以上问题促使我们理性客观地思考该如何去实现自动驾驶——这一承载了太多期望、不断挑拨大众神经的技术生产力变革,从而推动行业冷静且务实地向前发展。

01

自动驾驶的眼睛:

基于高质量图像成像的视觉雷达

随着自动驾驶等级的不断提高,控制权和责任主体逐渐从驾驶员转换为车辆,智驾系统的定位也将由扩增人的感知能力到接管车辆自主驾驶。由此对智驾系统之于物理世界环境理解的要求完全不同,将由对物理世界部分信息的提取提升到事无巨细的全面感知与理解。而这种变化,首要就是对2D图像成像与3D建模的越来越高的要求:1)更高分辨率和环境适应度的2D图像成像;2)对物理世界准确且稠密的实时3D建模。

Camera是自动驾驶感知物理世界最重要的传感器,其分辨率的提升将极大的提升图像的信息承载量,使得自动驾驶系统能够感知更加细节和更远距离的行车环境。当前主流自动驾驶前视摄像头的分辨率已经到800万像素以上,而更高的分辨率也是未来必然发生的事情。自动驾驶汽车面临的是一个开放性的外部环境,除了分辨率的提升,还需要提升自动驾驶在各种行车路况下的图像成像质量,比如不同的光线环境,傍晚、夜晚等,不同的气候环境,雨雪雾天等。相对于传统汽车应用的车载成像,自动驾驶对于车载成像质量的要求将极大提升,如何通过成像计算获取更高质量的图像就成为一个要解决的关键性问题。

动驾驶汽车在三维物理世界中运行,必然要求对物理世界进行更加深刻的三维理解。当前的高级别辅助驾驶在道路上不断出现各种各样的事故,这些事故的发生很大程度上是由于没有识别到未被样本库所覆盖的异形、非标等物体,比如一辆拉着一棵树的货车等,而这些corner case是无法被穷尽的。对于行车环境的实时稠密3D建模不仅可以识别异形和非标等物体,还能判断路面坑洼与起伏,这无疑将大大提升自动驾驶的安全级别。当前自动驾驶的3D环境感知,主要依赖激光雷达等主动投射测量装置,但其在分辨率上远低于Camera,也不具备颜色信息。随着深度学习的发展,单目深度估计、双目立体视觉、SFM、MVS等问题已经可以被深度神经网络所建模,从而可以基于多目视觉通过AI的方法实时生成3D点云,其视觉点云天然与图像对齐,并且其分辨率也能达到图像分辨率的级别。因此,如何通过多目视觉实现高分辨率的实时稠密3D建模,即视觉雷达,是另外一个要解决的关键性问题。

视觉传感器的信息承载量极高,目前远未被充分挖掘,但无论2D图像成像还是实时稠密3D建模都需要强有力的算法和算力进行支撑,这需要算法和算力进行协同设计。视觉传感器+算力+算法的传感器计算模式,将更加本质的推动解决自动驾驶当前面临的关键问题,即从2D和3D层面对物理世界进行事无巨细的感知与理解。

鉴智机器人核心团队拥有超过十年的图像处理、AI算法和算力设计的行业经验,将以视觉传感器为核心,通过解决车载ISP、视觉雷达等视觉传感器2D、3D成像的核心问题,打造更加强大的自动驾驶之眼,从而推动自动驾驶安全等级的提升。

1.1 从手机ISP到车载ISP

ISP(Image Signal Processor)是指通过一系列数字图像处理算法完成对数字图像的成像处理。在摄像机成像的整个环节中,ISP负责接收感光元件的原始信号数据,可以理解为整个摄像机图像输出的第一步处理流程。ISP在提高图像质量、增强数据的一致性等方面有着极其关键的作用。

得益于智能手机的发展和手机摄像头像素越来越高,手机ISP在过去几年得到了快速的发展和进步,手机拍照和录像的质量也越来越高,甚至到了惊艳的地步。比如在夜晚等场景,可以拍到比人眼看到的更清晰、光照更充足、色彩更丰富的照片;比如在进出隧道等光照变化剧烈的场景,也可以录制出比人眼表现更稳定、更清晰的视频。这些效果除了源于手机摄像头硬件上的升级,专门的AI ISP处理算法和处理芯片也起到了至关重要的作用。

随着自动驾驶对车载成像质量的阶跃式提升需求,车载ISP,特别是针对驾驶场景优化的AI ISP处理算法和处理芯片,将迎来爆发式的发展。AI在车载ISP整个流程中将变得越来越重要,特别是在降噪、去模糊、HDR等问题上,可以在夜晚、阳光直射、进出隧道等暗光、强光、高动态场景得到远超人眼的成像效果,同时最大程度上解决由Sensor引起的噪点、模糊等问题。将AI计算前置在ISP计算Pipeline中,通过流式计算,使得ISP的计算Pipeline不被打断,也将大大提升AI ISP的性能功耗比。

鉴智机器人拥有全链路的芯片级ISP IP的设计能力,将解决ISP特别是AI ISP在车载场景的核心问题,让车载摄像头成像更清晰,从而进一步提高视觉雷达点云生成和图像语义感知等后续任务的准确性。

1.2 从2D感知到视觉雷达

面对大规模自动驾驶,对3D点云的信息稠密程度、场景泛化性、性能可扩展性方面提出了更高的要求。基于视觉雷达,通过双目或者多目立体视觉计算,产生实时稠密的3D点云是更优的方式。

双目立体视觉是机器视觉的一种重要形式,与人眼类似,它是基于视差原理,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法,和基于TOF、结构光原理的深度相机不同,它不对外主动投射光源,完全依靠拍摄的两张图片(彩色RGB或者灰度图)来计算深度。

传统的双目立体匹配算法针对弱纹理、反光等区域效果比较差,同时对于物体语义信息利用比较少,算法适用范围具有局限性,点云效果上限比较明显。随着深度学习技术的发展,基于CNN、Cost Volume、Transformer的立体匹配算法展现出来了极强的算法效果和潜力。目前知名自动驾驶数据集KITTI上的立体匹配任务排名靠前的基本都是基于深度学习的算法。基于深度学习的双目立体匹配算法对于计算芯片的AI算力提出了比较高的要求,对于研发模式也提出了新的要求,需要从传统的双目相机研发模式变成以AI为核心、软硬结合、数据驱动的研发模式。

从双目立体视觉更进一步,充分利用相机的运动信息和多个相机间的几何约束,通过相机姿态估计、深度估计、光流估计、MVS等算法,以及任务之间互相监督的一系列自监督算法,可以得到360度的点云数据,也就是视觉雷达,从而形成与图像分辨率相匹配的稠密点云。同时,以摄像头+算力+算法为核心的视觉雷达,还具有产业链成熟可控、成本可控、器件稳定性有保证、满足车规等优势,更容易实现大规模前装量产上车使用。

02

纯视觉与激光雷达之争

根据集微咨询预计到2030年,L3级别以上自动驾驶渗透率有望达到30%以上。随着自动驾驶级别的提升,必然对汽车的感知、决策、执行相关的技术进行变革,其中感知侧的变革尤为明显。

2025年全球车用CIS市场规模预计达到32.7亿美元,年复合增长率达14%;激光雷达的销售额将达到61.9亿美元,年复合增长率达36%,无论是车载摄像头还是激光雷达其增速都非常快。自从马斯克跑轰激光雷达走纯视觉方案后,业内对于这两种方案的探讨从未停止,其归根结底在于该不该增用激光雷达作为在自动驾驶感知层面的一种手段。

英博超算创始人、总经理 田锋表示,纯视觉路线主要挑战在于摄像头分辨率与算法提升,而激光雷达在于可靠性、成本及可嵌入性。激光雷达的加入对控制系统的可靠性提供了更多的信息,例如车辆在行进过程中的抖动对视觉测距跟踪尤其是远距离会产生一些跳变,这些影响需要后期通过算法纠正,而激光雷达完全不存在这个问题。总体而言,视觉是未来自动驾驶感知技术的一条主线,会不断增强,但激光雷达的使用短期来看收益明显,长期来看取决于各个厂商对其的认知,或是消费者对于激光雷达的隐蔽性喜好程度如何。

北醒光子CEO 李远表示,无论是激光雷达也好毫米波雷达也罢,或是走纯视觉摄像头路径,其本质是挑战人类视觉极限。如今,产业所追求的视觉技术是逐步趋近于人眼,但这样一种2D的传感器本身就有边界。激光雷达的加入就是在弥补这样一种缺陷,它能够超出生物传感的特点包括直接探测反射率,可以全天候运行同时还能保证1%的精度等。如果以长远的目光去看待现阶段感知技术的发展,未来必会接触到激光雷达所带来的意义。当前激光雷达存在供应链不成熟及成本高等问题需要时间进行沉淀,如同汽车替代马车时的汽车那样,总有这么一个过程。

包括IEEE的专家在内,对于视觉路径成为自动驾驶技术的一条主线是基本的判断,诚如上文所说的那样,2D传感器有其天然的缺陷,而对于汽车这种对安全性和可靠性要求严苛的终端而言,能够让视觉技术支撑起自动驾驶的落地,必然是对其背后的软件算法提出了更高的要求。在此情况下,纯视觉的技术路径会对软硬件提出怎样的要求?它的落地难度与挑战又是如何?

福田汽车智能控制副总工程师 钱国平指出,从技术角度看,现阶段的纯视觉方案不太可能成功。一方面,摄像头需要解决“雨雾污”(雨天、大雾天、污垢)的问题。恶劣的环境会使摄像头拍到的图像变形,会导致测速测距的精度下降。另一方面,目前自动驾驶积累的数据不足以覆盖所有场景,所有路况,无法解决不断出现的新情况。摄像头的分辨率不断提升,对算力的要求也在不断提升,市场上可供选择的大算力芯片厂商寥寥无几。除了算力芯片外,负责图像处理的ISP等其他芯片性能需求也在不断上涨。短期内,视觉、毫米波雷达、激光雷达融合的方案能够各自发挥其优势,提高可靠性。

田锋表示,纯视觉路线并不靠谱。以人类驾驶员为例,其开车过程中并不仅依靠视觉信息,交规、前后车喇叭、路况信息积累等都是保障汽车平稳运行的信息来源。如果要让纯视觉技术成为可能,这背后也必须有V2X、高精度地图等技术的加持。如果在成本可接受的情况下,要尽可能综合使用这些传感器来为自动驾驶技术落地带来正向的促进作用,反之,也可利用传感器性能差异来满足不同级别自动驾驶技术路线,打造差异化。

03

自动驾驶的大脑:

全流程数据驱动的强单车智能

自动驾驶的大脑负责从感知到决策的驾驶全流程,也是自动驾驶最复杂、最核心和难度最高的部分。传统的以规则为核心的软件1.0工程化系统,在可维护性、扩展性和进化性上都具有一定的局限性。以AI和软件2.0为核心,全流程数据驱动的感知、预测、规控算法和强单车智能的解决方案,无疑是实现大规模无人驾驶更可行的方案。

鉴智机器人核心团队在AI算法和应用、软件2.0的基础设施、数据驱动的大规模实践上拥有丰富的经验,将通过全流程数据驱动的自动驾驶大脑,建立强单车智能,从而降低对外部基础设施的依赖,更加利于自动驾驶的复制与推广。

2.1 深度学习带来的2D感知技术突破

感知是自动驾驶获取信息的第一步, 所谓感知是指通过摄像头或其他传感器识别所看到的物体并理解该物体是什么,这对自动驾驶是至关重要的环节。自动驾驶车辆首先是要识别车道线,然后还要识别红绿灯、标志牌,除此之外就是识别障碍物比如前后左右有没有车辆,有没有行人,才能够进一步规划行驶路线。

过去十年是人工智能技术的黄金十年,深度学习改变了计算机视觉整个领域,也带来了2D感知各个方向技术的突破。2D感知主要有图像分类、图像(物体)识别、细粒度识别(人脸识别)等方向,所采用的技术也从最早的模板匹配、线性分类到现在所广泛使用的深层卷积神经网络,再到最近刷新各大视觉任务榜单的Transformer。随着硬件计算能力的不断提升、算法范式的不断改进、可利用数据资源的不断增长,基于摄像头的2D感知已经成为了乘用车智能驾驶的主流方案,同时也成为了很多解决方案的核心差异点。

鉴智机器人核心团队在国内最早基于深度学习在2D视觉感知各个方向开展系统性研究和大规模落地应用,在众多全球最具影响力的2D感知AI比赛和评测中获得冠军,发表顶级会议和期刊论文几十余篇,在多个业务领域实现了人工智能2D感知技术的大规模应用落地。

2.2 从2D感知到4D感知

如果说2D感知还是在平面上检测、识别、分割物体,那么加入深度信息后,基础的2D感知即转化为3D感知。如果进一步在3D的基础上加入时间这一维度,进化得到的则是4D感知。在自动驾驶领域,4D感知可以完整且连续的探测车辆周围的物体。

基于深度学习和三维视觉技术不断发展,随着Cost Volume、Optical Flow、differentiable Homography、Transformer等技术的成熟,以及多传感器融合、众包重建、稠密重建、自动标注等方向不断发展,可以高效率的提供高质量、大规模的4D场景数据,端到端的4D感知正在成为技术趋势。相比于传统的2D感知+后融合的方案,端到端的4D感知拥有很多优势,可以解决测距抖动较大、多摄像头拼接不准确、时序结果不稳定、迭代效率较低等一系列问题。

更进一步,基于端到端的4D感知,可以进行更好的4D预测,一方面可对于交通参与者进行更优的运动轨迹预测,从而实现性能更加优异的规划控制;另一方面可对于道路行驶区域预测更加精细的3D结构化信息,在线生成局部实时3D地图,降低对高精地图等基础设施的依赖。

04

单车智能和车路协同

单车智能和车路协同的本质是技术和成本在车侧和路侧的分配。

虽然L4-L5级的自动驾驶最理想模式是实现“车端-路端-云端”的高度协同,智能的车配合聪明的路,车端智能和路侧智能协同呼应,但车端智能和路端智能的发展不完全是同步的关系,自动驾驶路线的选择面临感知能力、决策能力(算力)等不同能力在车侧和路侧分配的问题,所对应的自动驾驶成本也不同。由于单车智能的成本高昂,若用路侧设备代替部分技术,让路“变聪明”,可降低不少车载成本,这样一来,就衍生出了自动驾驶的两大方向:单车智能和车路协同。

以车载传感器为例,激光雷达价格昂贵,尤其是用于远距离、大范围探测的L4/L5级别自动驾驶主雷达。例如Velodyne销售的64线激光雷达售价高达7.5万美元,曾是Waymo和百度等自动驾驶公司测试车的标配3,后来Waymo开始自研激光雷达,并于2017年宣布将激光雷达成本降低90%,达到7,500美元,2019年3月Waymo开始对外出售自主研发的激光雷达Honeycomb4,以摊薄成本。我国国产的激光雷达因高性价比日益受到市场的认可,价格有所下探但仍比较昂贵,例如禾赛科技在2020    CES上发布的64线超广角激光雷达PandarQT零售价为4,999美元5。

如果在路侧安装摄像头、毫米波雷达和激光雷达等感知设备,例如路灯杆进化为多合一路灯杆,安装各类传感器,探测周围环境的三维坐标,进行信息融合,由于安装高度高,拥有“上帝视野”,不容易被遮挡,视距条件更好,可最大化减少盲区,提高数据获取的准确性,并实时发送到ITS中心(智能交通系统)以及车端,那么车侧的部分激光雷达成本可以被节省下来,从而大幅降低车载成本。

同理,在路侧安装计算设备,通过边缘计算单元为车辆提供决策依据甚至指令,与车载计算平台协同处理数据,可以降低车载计算平台对算力的要求,对功耗和散热性能的要求也会随之下降,从而降低自动驾驶汽车对高性能车载芯片的依赖。

可见,路侧安装设备的方案拥有更低的单车成本和边际成本,路侧智能是车侧智能的有益补充。例如,奇瑞雄狮已实现固定区域的30Km/h以下的L4级“一键召还车”功能,如果只依靠车侧智能,车载传感器成本高达10万元/车,而借助5G和V2X技术,室内外的定位精度偏差小于15厘米,单车成本低于万元。这仅是车路协同在停车场等低速限定场景的应用,大规模L4级的量产还需要覆盖更多场景,例如半封闭的高速公路和一级公路,以及路况更为复杂的城市开放道路。在5G基站和V2X设备尚未铺设的路段,单车智能仍是重要的自动驾驶实现方式。

车路协同的前提是公路的智能化改造和基础设施投资。目前交通部已重点在北京、河北、广东三省进行公路的智能化改造试点,根据天风证券和中银国际证券的测算,高速公路的单公里智能化改造成本是100万左右,包含了RSU (RoadSideUnit)、边缘计算、摄像头等设备,考虑到中国的高速公路里程14.96万公里,一级公路11.17万公里,高速公路和一级公路的智能化改造市场规模约为2,613亿元。而对于二级公路和更低等级的公路,由于其路况更为复杂,更多机动车与非机动车和行人的混行情况,场景更为开放,需在十字路口、匝道口、事故易发路段等关键场景铺设更多路侧设备,不同路况的单公里智能化改造投资差异较大,难以进行估算。

对于高速公路和一级公路的智能化改造,更多通行车次、更为繁忙的路段可更早实现盈亏平衡,考虑到中国的人口和经济活动主要集中在东部地区,且东部地区地势相对平坦,急弯和陡坡较少,路况更简单,在东部铺设路侧设备具有更高的经济效益,尤其是物流密集的点对点固定运输路线,货运的空驶率更低,无人运输车队的优势明显,车队管理者付费意愿更强。自动驾驶不仅可节省司机成本,还可降低油耗,以卡车的编队行驶为例,由于跟车距离缩短(车距10m),前车可以为后车“挡风”,减少空气阻力,降低10-15%的燃油消耗10。假设货车百公里油耗35升,6元/升,编队行驶可节省10%油耗,则单公里可节省油耗0.21元,另外,假设一辆货车每年运营里程17.5万公里,司机年收入7.8万11,则单公里司机成本约0.45元,汇总后每公里可为车队节省0.66元,如果车路协同收取服务费0.4元/公里,考虑到初始投资100万/公里的改造费用,则使用车路协同服务的单公里通行车次达到250万辆车时,可实现盈亏平衡。如果10%的通行车辆使用车路协同服务,则总通行车次达到2,500万辆时盈亏平衡,也就意味着部分繁忙路段最短可在1年内收回成本。

车侧智能和路侧智能的分配和发展受到诸多因素的影响,例如政府对公路智能化改造的支持力度、不同区域的路况、交通参与者特征、地图与定位的精度、高性能激光雷达的价格变化、车队用户和个人消费者付费意愿与转换成本等因素。这些因素共同决定了不同方案初始投资的高低、投资回报期的长短,以及投资的经济性,从而影响了技术和成本在车侧和路侧的分配方案与演进路线。

05

未来自动驾驶技术的发展

毋庸置疑,增加传感器种类可以提高对环境感知的精确度及信息丰富度,但目前激光雷达等存在成本过高,供应链不成熟等问题,这也或许成为了厂商对自动驾驶技术发展路径再三斟酌的原由,但多传感器融合的路径是目前主要采取的方案,而未来自动驾驶的发展又如何?

李远表示,美国与日本占据全球无人驾驶视觉相关专利70%以上,而中国仅占7%左右,由此可看出在视觉技术上与全球领先国家能有十倍的差距。而激光雷达在中国发展的速度很快,放眼全球差距比视觉技术要小很多。

发展激光雷达对于中国而言,就如同大力发展电动汽车一样,都在寻找下一代技术来弯道超车。激光雷达比起摄像头成本高、工艺复杂、良率低并且都是些新公司,不如摄像头供应链成熟,但从没有人否认过激光雷达本身具有的优势,它绝对是高阶无人驾驶技术必备的传感器。短期内,行业还是会以多传感器融合为基础,同时也会推进成本控制,良率提升等问题,作为新一代传感器,激光雷达的上升空间相当广阔。

钱国平表示,无论是摄像头还是激光雷达,甚至毫米波雷达都在不断的发展,也有各自相对应的挑战与痛点。一个自动驾驶解决方案也必然不可能仅靠感知层面,背后也有单车智能化、V2X的边缘计算等去协同感知侧的发展。只要能达到自动驾驶的目的,任何解决方案都是最优、最有效的,也就成为了未来的趋势。

最后

自动驾驶被认为是目前最重要的硬科技创新之一。在汽车行业百年未有之大变革的历史性时刻,中国由于在电动汽车领域的提前布局、全面开花,以及完整产业链的巨大优势,国内企业在自动驾驶方向拥有非常好的机会和产业优势,有机会通过电动化和智能化实现百年汽车工业这一最重要的支柱产业的超车和领先。但自动驾驶的发展速度仍然低于大众和市场的预期,这里存在若干影响自动驾驶等级提升的关键性问题亟待解决,鉴智机器人基于自身在AI算法、AI算力层面的积累,致力于解决自动驾驶成像计算和下一代自动驾驶方案的关键性问题,从而推动自动驾驶的创新发展。

返回顶部