百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

发布时间：2020-07-18 17:05:30 所属栏目：动态来源：站长网

导读：副标题#e# 近日，国际三大计算机视觉顶尖会议之一的ECCV （欧洲计算机视觉国际会议）官方公布了2020年论文收录结果。结果显示，ECCV 2020投稿量再创新高，共5025篇有效投稿，相较上届翻了一倍多。投稿激增的同时，接收率却大幅下降，今年ECCV共接收发表文章

副标题[/!--empirenews.page--]

近日，国际三大计算机视觉顶尖会议之一的ECCV （欧洲计算机视觉国际会议）官方公布了2020年论文收录结果。结果显示，ECCV 2020投稿量再创新高，共5025篇有效投稿，相较上届翻了一倍多。投稿激增的同时，接收率却大幅下降，今年ECCV共接收发表文章1361篇，接收率为27%，相比上届降低近5%，其中Oral论文接收率仅为2%，堪称史上最难ECCV。

虽然竞争加剧，接收率不断降低，百度AI的ECCV 2020之行依然取得骄人战绩，共入选10篇论文，其中1篇Oral和1篇Spotlight论文，涵盖了自动驾驶识别&定位、声源定位&场景识别、目标跟踪、多模态&度量学习等众多领域，彰显了AI领军者的风范和深厚的技术底蕴以及持续创新能力。

未来，百度将继续深耕人工智能领域，加速技术迭代，推动语音、人脸、NLP、OCR等人工智能技术迈向新的高度，真正做到理论与应用并举，助力全球人工智能行业不断发展的同时，向国际展示中国AI的实力。

以下为百度ECCV 2020入选论文的亮点集锦：

论文1：Monocular 3D Object Detection via Feature Domain Adaptation

关键词：单目，三维目标检测，特征域迁移

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

自动驾驶中，基于单目的三维目标检测是一项极具挑战性的任务，因为单目估计深度的不可靠因素，导致了基于单目的三维目标检测和基于激光雷达的三维目标检测之间存在明显的性能差距。论文中，百度提出一种新的基于特征域适配的单目三维目标检测框架DA-3Ddet，核心思想是将基于图像深度估计得到的伪雷达特征迁移至特征更鲁棒且精度更高的真实雷达特征域，从而直接缩小两者性能的差距。在自动驾驶KITTI数据集的大量实验证明，简单且有效的新框架优于其他框架，达到了目前SOTA的性能指标。

论文2：DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving

论文链接：https://arxiv.org/abs/2003.03026

关键词：自动驾驶、视觉定位、视觉SLAM

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

论文中，百度AI介绍了一个基于视觉传感器的自动驾驶车辆自定位方法，它基于深度注意力特征实现了高精度高鲁棒性的视觉定位能力，效果媲美基于成本高昂的高线数激光雷达的定位系统。传统的视觉定位方法或依赖人工构建的视觉特征或依赖场景中人工建造的带有语义特征的标识物来进行车辆位置测定。这些人工构建的视觉特征已知对于因光照或视角造成的物体外观变化没有很好的鲁棒性，容易造成严重的误匹配。而场景中人工建造的带有语义特征的标识物，如车道线、交通标志牌等，在很多实际场景中难以保证连续高密度的存在。这两种原因都会导致定位系统因缺乏可用的鲁邦的定位特征导致定位失败。

百度试图通过一个基于深度注意力特征的端到端神经网络去发现场景中适合定位任务的显著的、独特的且稳定不变的特征点，并且通过网络来学习得到这些特征点的特征描述子。这些通过神经网络发现并学到的特征及特征描述子被证明可以在复杂场景中建立稳定的匹配关系，从而稳定高精度地进行车辆位姿的估计。基于Apollo稻香湖数据集，百度详细验证了新系统的效果。在该数据集中，百度通过高端组合导航设备提供了高精度的定位结果真值用于评估定位系统的定位精度效果。同时该数据集包含了北京城区从秋天到春天、上午到傍晚以及晴天雨雪等复杂的场景、光照和季节变化。实测结果证明，新算法可在上述复杂场景下实现厘米级定位精度，效果逼近成本高昂的激光定位系统，为降低自动驾驶系统整体成本及商业量产化进一步铺平了道路。

论文3：DVI: Depth Guided Video Inpainting for Autonomous Driving

关键词：视频修复，自动驾驶，深度图像，图像合成，仿真

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

为了在自动驾驶中获得清晰的街景和逼真的仿真，百度提出一种自动视频修复算法，它可从视频中删除移动的物体，并在深度/点云信息的指导下合成缺失的区域。通过点云信息构建密集的3D地图，视频中的帧会通过此3D地图产生几何关联。为了填充帧中的目标修补区域，可以通过将像素从其他帧转换到当前帧被遮挡的位置。

此外，还可通过3D点云融合多个视频，从而用多个源视频修复目标视频，解决长时间遮挡问题，即在整个视频中都被遮挡的区域。据知，这是首个将多个视频融合在一起进行视频修复的工作。为验证新方法效果，百度在真实的城市道路环境中使用同步的图像和激光雷达数据（包括许多挑战场景，例如长时间遮挡）构建了一个大型的视频修复数据集。实验结果表明，在所有的量化标准中，该方法均优于现在最好的方法，尤其是RMSE（均方根误差）降低了约13％。

论文4：Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

论文链接：https://arxiv.org/abs/2005.08449

关键词：航空影像，场景识别，跨任务迁移，声音事件，多模态识别

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

针对航空影像的场景识别是遥感观测的基本任务之一，并且在近年来受到越来越多的关注。尽管现有视觉模型在场景识别方面表现出良好性能，但考虑到航空影像的特殊性，地物差异、光照变化等仍然是影响视觉识别的较大因素。受到人类大脑多通道知觉的启发，声音信息会在一定程度上为视觉内容理解提供帮助。

（编辑：衡阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

简谈局域网即时通信确	怎样买软件数字签名证
小米全尺寸人形仿生机	英伟达 RTX 3080 等高