CVPR 2021 | 创新奇智首次提出零样本实例分割,助力解决工业场景数据瓶颈难题

创新奇智 2021年04月15日

日前,全球计算机视觉顶级会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)公布了2021年论文接收结果。来自创新奇智的论文 《Zero-Shot Instance Segmentation》成功被CVPR 2021接收


CVPR是计算机视觉领域三大顶级会议(CVPR、ICCV、ECCV)之一。CVPR的论文投稿量近五年来持续增长,根据CVPR官方网站统计,2021年一共收到有效投稿论文超过7500篇,最终1663篇论文被接收,接收率为27.3%。在激烈的竞争中,创新奇智投稿的论文脱颖而出,显示创新奇智在计算机视觉领域深厚的创新力。


20210416122931.jpg


创新奇智被CVPR2021接收的论文提出了零样本实例分割,属于零样本物体检测的自然延伸(类似于Mask-RCNN之于Faster-RCNN)。


创新奇智在将人工智能应用到商业化实践的过程中,会遇到AI落地过程中非常现实的问题,尤其是在面向信息化程度有限,样本复杂多样,正样本数量奇缺或需要非常专业标注方法的制造业场景时,其中的数据获取困难、标注成本高等行业难题成为众多AI公司快速商业化的桎梏。


创新奇智针对这一难题展开深入研究,获得了突破性的创新结果,该结果对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升


论文解读

0.jpg

论文摘要中文解读:


深度学习可以利用大量的标注数据来有效地提升实例分割的精度,但是在诸如医疗和工业领域,要么收集足够的数据非常困难,要么标注数据需要非常专业的知识。从这点出发,我们提出了一个新的任务称之为零样本实例分割(Zero-Shot Instance Segmentation),文中简称ZSI。ZSI的任务要求在训练过程中,只用已经见过并有标注的数据进行训练,但在测试和推理时能够同时分割出见过和没见过的物体实例。我们先用数学语言对该任务进行描述,然后提出了一个方法来解决ZSI的问题。我们的方法包括零样本检测器(Zero-shot Detector)、语义蒙版头(Semantic Mask Head)、背景感知RPN和背景同步策略。我们同时也提供了在MS-COCO数据集上的基准测试。实验结果表明,我们提出的方法不仅在ZSI的任务上效果不错,在零样本检测任务上也取得了比之前已有研究更好的表现。我们的方法可以作为一条坚实的基准,能够有效的帮助未来的研究者进行零样本实例分割的研究。

主要贡献

1. 引出并定义出现实世界中遇到的零样本的实例分割任务。

2. 针对零样本实例分割任务,提出应对的算法,该算法是基于背景感知的检测-分割框架。

3. 定义了零样本分割(ZSI)自己独特的测试基准。

4. 测试结果表明在ZSD任务上超越了已有的方法,且在ZSI任务上的结果很有竞争力。

2.jpg

图1:零样本实例分割示例


在零样本实例分割中,开始只使用标注的数据(标记为seen)作为训练集训练模型,在训练完模型之后,使模型对训练时候见到过(seen)的类别和模型训练的时候没有见到(unseen)的类别分别进行预测。在论文提出的方法中,如图1,餐刀是在训练模型的时候见过的类别,叉子是在训练模型的时候没有见过的类别,通过训练图像模型,同时维持一个餐刀和叉子在语义层面的特征向量来进行联系。


整个零样本实例分割的框架如图2所示。对于一张输入图像来讲,首先要使用骨干网络(backbone),BA-RPN和ROI Align来提取视觉特征和背景的词向量,然后经过Sync-bg模块后分别送入零样本检测器和语义分割头,从而得到实例分割的结果。

3.jpg

图2:零样本实例分割的框架


零样本检测器的设计细节如图3所示,采用了编码-解码结构,在测试/推理时只是用解码器的Te

4.jpg

图3:零样本检测器的设计细节

5.jpg

图4:语义分割头


语义分割头的结构如图4所示,它是一个encoder-decoder的架构,在训练阶段,使用encoder来把图像的特征编码到语义-文字特征向量。然后使用decoder把上面构建的语义-文字特征向量去重建图像的任务:检测,分割等。


不同模块的作用如表1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方法结合在一起时,达到最佳的效果。

6.jpg

表1:每个模块的效果


实验结果


首先如论文开头所说,该方法在Zero-shot Detection的任务(数据集是COCO)上也明显超越了已有的state-of-the-art的结果,达到了新的SOTA。

7.jpg

对于ZSI和GZSI(即零样本实例分割和通用零样本实例分割)任务来讲,论文的结果也非常不错,见表3和表4

8.jpg9.jpg

局限性分析

零样本实例分割致力于解决工业场景中数据少,或者是数据难以发现和标注的问题,可以在没有标注数据的情况下标注出新的类。但需要指出的是,正如当前阶段的AI不可能自己学会完全没见过的知识一样,论文提出的方法采用了词向量这个额外特征作为中间媒介,然后把问题的核心转换为如何利用额外特征在特征空间对齐视觉特征和语义信息,并迁移到没有见过的新类上。


创新奇智CTO张发恩指出:“创新奇智提出的零样本实例分割算法,是业界首次提出可以使用零样本算法来做实例分割的方法,同时还能够提升业界最新的零样本检测算法的准确率。尤其是对创新奇智来说,深度耕耘智能制造,在很多场景下,视觉系统所产生的数据形式多样,没有统一标准,很难直接使用深度学习的算法模型来使用。这个时候如果能够使用零样本学习的方法达到数据发现、数据粗筛、辅助标注、模型基本能力探索等工作显现的尤为重要。这也是我们做这项研究的初衷。”

创新奇智聚焦智能制造,致力用人工智能创新技术解决复杂的工业生产问题,三年来已服务中冶赛迪、中铁四局、中集、宗申、华电电科院等多家行业龙头企业,积累和沉淀了丰富的行业实践,提出一系列能解决实际问题的创新算法和产品或解决方案,如少样本学习、零样本实例分割、混合级联实例分割算法、物理缺陷模拟等。在智能制造已成为国家战略举措的时代背景下,创新奇智将继续在制造业领域精耕细作,打造更多的AI创新实践。



返回动态列表

CVPR 2021 | 创新奇智首次提出零样本实例分割,助力解决工业场景数据瓶颈难题

创新奇智 2021年04月15日

日前,全球计算机视觉顶级会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)公布了2021年论文接收结果。来自创新奇智的论文 《Zero-Shot Instance Segmentation》成功被CVPR 2021接收


CVPR是计算机视觉领域三大顶级会议(CVPR、ICCV、ECCV)之一。CVPR的论文投稿量近五年来持续增长,根据CVPR官方网站统计,2021年一共收到有效投稿论文超过7500篇,最终1663篇论文被接收,接收率为27.3%。在激烈的竞争中,创新奇智投稿的论文脱颖而出,显示创新奇智在计算机视觉领域深厚的创新力。


20210416122931.jpg


创新奇智被CVPR2021接收的论文提出了零样本实例分割,属于零样本物体检测的自然延伸(类似于Mask-RCNN之于Faster-RCNN)。


创新奇智在将人工智能应用到商业化实践的过程中,会遇到AI落地过程中非常现实的问题,尤其是在面向信息化程度有限,样本复杂多样,正样本数量奇缺或需要非常专业标注方法的制造业场景时,其中的数据获取困难、标注成本高等行业难题成为众多AI公司快速商业化的桎梏。


创新奇智针对这一难题展开深入研究,获得了突破性的创新结果,该结果对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升


论文解读

0.jpg

论文摘要中文解读:


深度学习可以利用大量的标注数据来有效地提升实例分割的精度,但是在诸如医疗和工业领域,要么收集足够的数据非常困难,要么标注数据需要非常专业的知识。从这点出发,我们提出了一个新的任务称之为零样本实例分割(Zero-Shot Instance Segmentation),文中简称ZSI。ZSI的任务要求在训练过程中,只用已经见过并有标注的数据进行训练,但在测试和推理时能够同时分割出见过和没见过的物体实例。我们先用数学语言对该任务进行描述,然后提出了一个方法来解决ZSI的问题。我们的方法包括零样本检测器(Zero-shot Detector)、语义蒙版头(Semantic Mask Head)、背景感知RPN和背景同步策略。我们同时也提供了在MS-COCO数据集上的基准测试。实验结果表明,我们提出的方法不仅在ZSI的任务上效果不错,在零样本检测任务上也取得了比之前已有研究更好的表现。我们的方法可以作为一条坚实的基准,能够有效的帮助未来的研究者进行零样本实例分割的研究。

主要贡献

1. 引出并定义出现实世界中遇到的零样本的实例分割任务。

2. 针对零样本实例分割任务,提出应对的算法,该算法是基于背景感知的检测-分割框架。

3. 定义了零样本分割(ZSI)自己独特的测试基准。

4. 测试结果表明在ZSD任务上超越了已有的方法,且在ZSI任务上的结果很有竞争力。

2.jpg

图1:零样本实例分割示例


在零样本实例分割中,开始只使用标注的数据(标记为seen)作为训练集训练模型,在训练完模型之后,使模型对训练时候见到过(seen)的类别和模型训练的时候没有见到(unseen)的类别分别进行预测。在论文提出的方法中,如图1,餐刀是在训练模型的时候见过的类别,叉子是在训练模型的时候没有见过的类别,通过训练图像模型,同时维持一个餐刀和叉子在语义层面的特征向量来进行联系。


整个零样本实例分割的框架如图2所示。对于一张输入图像来讲,首先要使用骨干网络(backbone),BA-RPN和ROI Align来提取视觉特征和背景的词向量,然后经过Sync-bg模块后分别送入零样本检测器和语义分割头,从而得到实例分割的结果。

3.jpg

图2:零样本实例分割的框架


零样本检测器的设计细节如图3所示,采用了编码-解码结构,在测试/推理时只是用解码器的Te

4.jpg

图3:零样本检测器的设计细节

5.jpg

图4:语义分割头


语义分割头的结构如图4所示,它是一个encoder-decoder的架构,在训练阶段,使用encoder来把图像的特征编码到语义-文字特征向量。然后使用decoder把上面构建的语义-文字特征向量去重建图像的任务:检测,分割等。


不同模块的作用如表1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方法结合在一起时,达到最佳的效果。

6.jpg

表1:每个模块的效果


实验结果


首先如论文开头所说,该方法在Zero-shot Detection的任务(数据集是COCO)上也明显超越了已有的state-of-the-art的结果,达到了新的SOTA。

7.jpg

对于ZSI和GZSI(即零样本实例分割和通用零样本实例分割)任务来讲,论文的结果也非常不错,见表3和表4

8.jpg9.jpg

局限性分析

零样本实例分割致力于解决工业场景中数据少,或者是数据难以发现和标注的问题,可以在没有标注数据的情况下标注出新的类。但需要指出的是,正如当前阶段的AI不可能自己学会完全没见过的知识一样,论文提出的方法采用了词向量这个额外特征作为中间媒介,然后把问题的核心转换为如何利用额外特征在特征空间对齐视觉特征和语义信息,并迁移到没有见过的新类上。


创新奇智CTO张发恩指出:“创新奇智提出的零样本实例分割算法,是业界首次提出可以使用零样本算法来做实例分割的方法,同时还能够提升业界最新的零样本检测算法的准确率。尤其是对创新奇智来说,深度耕耘智能制造,在很多场景下,视觉系统所产生的数据形式多样,没有统一标准,很难直接使用深度学习的算法模型来使用。这个时候如果能够使用零样本学习的方法达到数据发现、数据粗筛、辅助标注、模型基本能力探索等工作显现的尤为重要。这也是我们做这项研究的初衷。”

创新奇智聚焦智能制造,致力用人工智能创新技术解决复杂的工业生产问题,三年来已服务中冶赛迪、中铁四局、中集、宗申、华电电科院等多家行业龙头企业,积累和沉淀了丰富的行业实践,提出一系列能解决实际问题的创新算法和产品或解决方案,如少样本学习、零样本实例分割、混合级联实例分割算法、物理缺陷模拟等。在智能制造已成为国家战略举措的时代背景下,创新奇智将继续在制造业领域精耕细作,打造更多的AI创新实践。



返回动态列表