百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

发布时间：2020-07-18 17:05:30 所属栏目：动态来源：站长网

导读：副标题#e# 近日，国际三大计算机视觉顶尖会议之一的ECCV （欧洲计算机视觉国际会议）官方公布了2020年论文收录结果。结果显示，ECCV 2020投稿量再创新高，共5025篇有效投稿，相较上届翻了一倍多。投稿激增的同时，接收率却大幅下降，今年ECCV共接收发表文章

如何在复杂视听场景中实现机器多模态感知是一个非常有趣但富有挑战性的问题。论文中，百度联合上海交通大学着重探索如何在缺少声音和物体配对标注的情况下，实现多声源场景中声源物体的视觉定位。具体地，研究人员利用二阶段的音视频关联学习框架，首先将复杂的多声源场景解耦为多个简单场景，其次基于类别和场景实现精细的跨模态特征对齐，构建声音和物体的配对。

实验结果充分证明了该模型能够有效地在复杂场景中建立声源物体及其声音之间的对应关系。所提出的模型在公开数据集的定位任务上取得了先进的效果，并在复杂场景的多源声音定位上达到了可观的性能; 同时，获得的声源定位结果亦能够有效地应用于声音分离任务，准确分离出物体对应的声音。

论文6：Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement

关键词：人体姿态估计，关键点定位，两阶段，图结构姿态改善

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

在人体姿态估计任务中，目前主流算法主要采用基于热力图回归的方案，通过解码热力图获取关键点的坐标。论文中，百度旨在探索一种优化方案进一步提升定位精度，并提出两个改进思路：1）粗定位和精定位使用不同的特征图 2）考虑关键点之间的关联关系。基于以上思路，研究人员提出了一个基于图结构的、模型无关的两阶段训练框——Graph-PCNN。该框架在原有热力图回归框架上增加了一个定位子网络和一个图结构姿态优化模块；其中热力图回归网络则作为第一阶段，用于提供各关键点的粗略定位，为第二阶段提供候选点；定位子网络作为第二阶段，用于对各关键点的候选点提取视觉特征，并回归最终的关键点坐标。

为了进一步利用各关键点之间的关联关系，这里使用图结构姿态优化模块对各关键点的候选点特征进行优化，从而获得更精确的回归结果。实验证明，Graph-PCNN可以适配多种不同的基础网络，并大幅提升定位精度。在COCO test-dev集合上，新提出最优模型的AP可以得到76.8%，达到领先水平。

论文7：Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

论文链接： https://arxiv.org/abs/2007.01550

关键词：多目标跟踪，实例分割

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

现有的多目标跟踪与实例分割（MOTS）算法框架大多采用检测-跟踪这一方案，其中，主流方法多采用2D卷积神经网络提取实例的特征。然而，由于受到感受野范围的影响，采用2D卷积神经网络对实例提取特征过程中，不可避免地会将实例前景信息与背景信息混合在一起，严重影响后续帧间关联的准确率。论文中，百度将图像像素转化成2D的“点云”，并提出一种全新的基于实例分割掩膜的特征提取方法。对于每一个实例，研究人员利用前景像素和背景像素分别构建3D“点云”，对于每一个2D“点云”中的点，则进一步结合颜色、位置、类别等多种模态的特征。

随后，通过借鉴Pointnet 3D点云处理网络结构，完成对每个实例提取特征。新提出的PointTrack为一整套全新的在线MOTS算法框架，效果超过此前最好方法MOTSFusion 5.4%(MOTSA)，并达到了接近实时的处理帧率22FPS。最后，研究人员还提出了一个更有挑战性的MOTS数据集-APOLLO MOTS，相比KITTI-MOTS，实例的密度提升约68%。

论文8：Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

关键词：视频描述，对话代理，多模态学习

百度大脑“突围”史上最难ECCV：10篇论文入选，尽显国际AI顶流风范

对于人工智能系统的安全性担忧正随着其接触到的越来越多的敏感信息而增加，研究人员为此也一直在追求创造更为安全可靠的人工智能系统。论文中，百度提出一个全新的视频描述任务，旨在以两个代理之间的自然语言对话作为主要信息媒介来描述视频。相比于直接传输视频，自然语言更具有透明性，难以传递人脸等敏感隐私信息。具体来说，任务中包含两个对话代理，即外界提问代理Q-BOT和内部回答代理A-BOT；其中Q-BOT仅通过视频首尾两帧静态图像对视频中所展现的环境有模糊感知，而A-BOT则可以看到完整的视频音频信息和相应的视频描述。

任务过程中，Q-BOT可以向A-BOT询问视频相关的十个问题，A-BOT则针对这些问题给出答复，在十轮问答之后，Q-BOT需要根据初始的两帧静态图像与对话信息对视频作出具体描述。此外，论文还提出一个可以让两个代理之间进行有效信息传递的网络架构。实验证明Q-BOT可以有效通过对话交互来完成描述视频的任务。

论文9：Collaborative Video Object Segmentation by Foreground-Background Integration

论文链接：https://arxiv.org/abs/2003.08333

（编辑：衡阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页

简谈局域网即时通信确	怎样买软件数字签名证
小米全尺寸人形仿生机	英伟达 RTX 3080 等高