首页 » PHP教程 » phplocationrefer技巧_CVPR 2021 ReferitinRGBD 自上而下的三维文本视觉定位方法

phplocationrefer技巧_CVPR 2021 ReferitinRGBD 自上而下的三维文本视觉定位方法

访客 2024-11-30 0

扫一扫用手机浏览

文章目录 [+]

RGBD图片相对付完全场景而言,能够轻松获取,并且使得文本视觉定位能够在动态变革的环境及时进行(如演示视频),不须要每次都重修完全场景。
但由于物体几何信息的部分缺失落,在RGBD图片上进行三维文本视觉定位是更有寻衅性的任务。
我们提出了一个自下而上的方法,来办理这一任务所带来的寻衅。

论文链接:

phplocationrefer技巧_CVPR 2021  ReferitinRGBD 自上而下的三维文本视觉定位方法

https://arxiv.org/abs/2103.07894

phplocationrefer技巧_CVPR 2021  ReferitinRGBD 自上而下的三维文本视觉定位方法
(图片来自网络侵删)

项目主页:

https://unclemedm.github.io/Refer-it-in-RGBD/

一、文章思路

1. 我们提出了一项新颖而具有寻衅性的任务——在存在不完全的信息或部分遮挡的单视图RGBD图像中,根据文本描述进行三维物体定位(3D visual grounding)。

2. 我们提出了一种内容感知(content-aware),自下而上(bottom-up)的方法,在ScanRefer数据集和我们新网络的数据集SUNRefer上,分别得到了优于现有方法11.2%和15.6%的结果。

3. 我们为3D visual grounding供应了一个大规模的基于RGBD图像的物体文本描述数据集。

二、SUNRefer数据集

由于短缺单视角RGBD图片下专用于3D visual grounding的大规模数据集,我们贡献了一个基于SUN-RGBD数据集的物体文本标注数据集,称为SUNRefer。
我们的数据集包含来自SUN-RGBD的7,699个RGBD图像和我们所贡献的38,495个描述。

数据比较:图1中显示了SUNRefer数据集的示例。
表1中展示了与其他文本三维视觉定位数据集的比较。

图 1:SUNRefer数据集样本

表 1:SUNRefer数据集的统计信息,和其他公开的文本三维视觉定位数据集的比较

三、任务概述

基于单视角(single-view)RGBD图片的文本三维视觉定位(3D visual grounding)任务: 我们首次提出在单视角(single-view)RGBD图片上完成文本三维视觉定位任务(3D visual grounding),即给出一张单视角RGBD图片和一个针对该图片上某个物体的文本描述,找出该文本描述对应的物体,并给出其3d bounding box,图2是该任务的一个例子。
本任务中须要考虑的一个难点是,输入的图片存在信息不完全或者部分遮挡的情形,图3给出了一个例子,此时图片只包含文本描述中的目标物体的一部分,在这种情形下,将不完全的三维视觉信息与文本描述进行匹配,从缺失落的不雅观察中得到完全的bounding box,都将变得十分困难。

图 2

图 3

四、网络框架

本文提出了一个自下而上(bottom-up)的方法来办理寻衅。
该框架包含两个紧张模块——体素级别匹配和粗略定位(Voxel-level Matching for coarse localization),以及物体级别的风雅文本定位(object-level matching for fine grounding)。
首先进行体素级别匹配天生干系性热力争(relevancy heatmap),用于在RGBD图片中粗略地定位到所描述物体的干系区域。
接下来,在物体级别的模块中,本文提出了一种自适应搜索策略,基于干系性热力争在重点干系区域进行更细致地搜索。
末了,我们将自适应搜索中积累的特色与措辞特色进行领悟,以进行物体级别匹配,天生多个3d bounding boxes和每个bounding box 与措辞的匹配分数(matching score)。
图4展示了我们的网络构造。

图 4:网络构造

体素级别匹配(voxel-level matching):

首先我们对两个模态的输入——文本和RGBD图片——进行体素级别的匹配以粗略确定物体的位置。

天生干系性热力争我们首先将输入的RGBD图片转换为体素,然后采取U-Net模型,并在瓶颈层融入语句特色,来终极得到逐体素的干系性热力争(如图4的所示,高亮区域与输入的措辞描述有高干系性)。
为了方便后续在点云上进行操作,我们将热力争再投影到点云上,终极得到点云上的热力争。
物体级别匹配(object-level matching):

我们利用天生的干系性热力争来实行更细粒度的物体定位。
我们首先提出一个文本感知的采样方法,以天生种子点(seed),使得这些种子点集中在干系性热力争中高亮的区域,再以每个种子点为中央对周围区域进行细致的搜索。
然后,我们将种子点的特色和措辞特色进行领悟,并利用VoteNet中所提出的Voting Module来回归出多个候选bounding boxes以及每个bounding box与输入语句的匹配分数。

自适应的采样方法本文提出利用加权最远点采样(weighted FPS)来得到种子点。
详细来说,我们利用干系性热力争作为点云中每个点的权重,然后结合最远点采样,给两个点之间的间隔作加权。
这种采样方法可以确保具有较高热力值的点有较高的机会当选中,从而导致种子点密集分布在热力争的高亮区域中。
在得到种子点后,我们从之前利用Pointnet++处理得到的关键点特色中通过特色聚合(feature aggregation)获取种子点的特色。
视觉措辞特色领悟天生proposal在这一步中,我们再次进行文本特色和种子特色的领悟。
然后我们采取和VoteNet相同的机制,每个seed通过vote找到附近物体的中央点,再通过聚类得到proposal特色。
末了我们利用MLP从proposal 特色回归出3d bounding box和每个3d bounding box与输入文本的匹配分数,个中匹配分数最高的被我们选为终极的预测结果。
丢失函数(loss function):

Heatmap loss: 本文利用了Heatmap loss来监督干系性热力争的天生,利用了Gaussian kernel来天生GT 热力争,区域离目标物体的中央越远,GT热力值越低。

Vote loss: 我们参照VoteNet定义了Vote loss来匆匆使网络天生精确的vote。

Matching loss: 我们设计了matching loss用于衡量匹配分数和IoU(候选bounding box与GT bounding box的IoU)之间的关系,通过这种办法可以使得匹配分数瞄准确的候选bounding box做出高度相应,公式如下,

Response loss: 为了拉近与GT bounding box IoU最高的候选bounding box和GT bounding box的间隔,我们设计了response loss,公式如下,

五、实验与剖析

单视角RGBD数据集: 在实验部分,我们分别在ScanRefer上的单视角RGBD数据集和我们自己网络的SUNRefer数据集上进行了演习和测试。
个中,由于ScanRefer只供应了在全场景上的标注,以是对付每一个标注的物体,我们直接从ScanNet上提取了包含该物体的原始RGBD图片。
在演习中,选取的图片包含遮挡程度不同的目标物体,使得我们的方法也可以处理严重遮挡情形下的物体。

我们选择了ScanRefer中提出的方法,和两个二维visual grounding的方法并把二维结果投影到三维空间,作为比拟。
实验的数值结果如表2所示,显示我们的方法在两个数据集上都有明显优于现有方法的结果。
我们也选取了部分实验可视化结果,如图5所示。

表 2

图 5:如果bounding box和GT bounding box(黄色)的IoU大于0.5,则将其视为成功的预测(绿色);否则,将其视为失落败的预测(赤色)

Whole scene数据集: 同时,我们也在全场景的ScanRefer数据集上进行了演习和测试,以跟ScanRefer完备相同的设置下进行实验比拟。
结果显示我们的方法不仅适用于单视角的RGBD图片,在全场景数据上也有较好的表现,在相同的输入条件下能够得到明显优于现有方法的结果。
表3展示的是与目前表现最好的方法在ScanRefer数据集上的定量比较。

表 3:与在ScanRefer数据集上的目前最优方法的定量比较。
纵然是在全场景的设定下,我们的方法均取得了更好或者水平相称的结果

溶解实验

为了证明我们提出的网络构造的有效性,我们同时进行了溶解实验。

没有体素级别匹配的FPS baseline: 在没有利用voxel-level匹配的FPS Baseline的方法中,我们只利用了一个标准的VoteNet和前文提到的物体级别匹配, 从表4和图6可以看出加上voxel-level的效果明显好于FPS baseline。

表 4:溶解研究的定量结果

图 6:我们的方法与FPS baseline的比较。
绿色为成功的预测,赤色为失落败的预测,黄色为GT bounding box

只利用体素级别匹配: 在这个方法中,我们移除了物体级别的匹配,我们同样利用VoteNet来天生物体proposal,同时根据天生的点云Heatmap来选择与文本匹配置信度最高的proposal作为终极结果。
从表4中可以看出,去掉物体级别匹配会使结果大幅度降落。

利用不同的采样策略: 我们比较了不同的采样方法,包括标准的最远点采样,我们利用的加权最远点采样,和将热力值作为采样概率的随机采样。
从图7可以看出, 在加权最远点采样中,点能够更多地落在与目标物体干系的区域内,并且是均匀分布的,由此可以得到更好的效果。
表4中有不同采样方法的定量比较。

图 7:不同采样方法之间的比较。
seed以赤色显示

利用不同的策略天生干系性热力争: 我们比拟了基于点云、基于图片和基于体素天生热力争的方法,从图8可以看出,利用体素可以天生更加贴近目标物体的Heatmap, 使得在后续可以提取到更好的内容感知特色以得到更准确的3d bounding box。
表4中有上述不同策略的定量比拟。

图 8:干系性热力争天生模型中利用不同模态的方法之间的比较。
绿色为成功的预测,赤色为失落败的预测,黄色为GT bounding box

六、总结

我们提出了一个全新的任务,即单视角RGBD下的文本三维视觉定位。
我们也提出了一个自下而上的方法,分别在voxel-level和object-level进行视觉和文本的匹配。
同时,我们贡献了一个大规模的文本视觉定位数据集SUNRefer,该数据集包含超过7000张图片和38495条描述。
通过实验,证明我们的方法在SUNRefer和ScanRefer数据集上都能得到大幅度优于之前的方法的结果。

//

团队先容

项目紧张由喷鼻香港中文大学(深圳)GAP实验室韩晓光博士带领主导完成。
该事情紧张完成人刘浩霖,为喷鼻香港中文大学(深圳)博士生。

GAP实验室:

https://mypage.cuhk.edu.cn/academics/hanxiaoguang/index.html

- The End -

关于我“门”

将门是一家以专注于发掘、加速及投资技能驱动型创业公司的新型创投契构,旗下涵盖将门创新做事、将门技能社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技能型创业公司。

如果您是技能领域的初创企业,不仅想得到投资,还希望得到一系列持续性、有代价的投后做事,欢迎发送或者推举项目给我“门”: bp@thejiangmen.com

标签:

相关文章

网站SEO优化方法让您的网站脱颖而出

网站已成为企业展示形象、拓展业务的重要平台。在竞争激烈的市场环境中,如何让您的网站脱颖而出,吸引更多潜在客户,成为了企业关注的焦点...

PHP教程 2025-04-09 阅读1 评论0

绥化抖音SEO企业助力企业腾飞的新引擎

抖音这一短视频平台迅速崛起,成为了众多企业和个人展示自我、拓展业务的重要平台。在绥化这片充满活力的土地上,抖音SEO企业应运而生,...

PHP教程 2025-04-09 阅读1 评论0

网站改版对SEO的影响与应对步骤

网站改版已经成为企业提升品牌形象、优化用户体验、增强竞争力的重要手段。网站改版对SEO(搜索引擎优化)的影响不容忽视。本文将分析网...

PHP教程 2025-04-09 阅读1 评论0

职场SEO专员如何打造高效关键词布局步骤

搜索引擎优化(SEO)已成为企业提升品牌知名度、扩大市场份额的重要手段。SEO专员作为企业网络营销的核心力量,其工作内容之一便是关...

PHP教程 2025-04-09 阅读1 评论0