Adversarial seeded sequence growing for weakly-supervised temporal action localization概述
阅读原文时间:2023年07月09日阅读:3

0.前言

  • 相关资料:

  • 论文基本信息:

  • 领域:弱监督时序动作定位综述

  • 更新时间:ACM MM2019(2019.8.7)

1.针对的问题

  大多数现有的框架依赖于类激活序列(CAS),通过最小化视频级的分类损失来定位动作,它利用了动作中最具判别性的部分,但忽略了次要区域,具体来说:1)由于CAS引起的峰值响应问题,导致对长时间动作的评价表现不佳。这直接导致了长时间动作检测的结果较差。2)可能会忽略琐碎或低判别度的动作。

2.主要贡献

  (1)提出了一种融合SSG网络的端到端弱监督动作检测方法和一种特定的视频级分类器,用于非判别动作定位的挖掘。这是第一个在时序动作检测中介绍种子生长机制的工作。

  (2)采用对抗性方式对两个模块进行训练,不仅可以帮助增加动作发生的时间,还可以挖掘出琐碎或低判别度的动作。

  (3)大量的实验证明,方法在THUMOS14和ActivityNet1.3数据集上取得了令人印象深刻的性能,特别是在高IoUs的评估上。

3.方法

  通过对抗性方式学习的两个模块。

  第一个模块被设计为一个设计好的Seeded Sequence Growing(SSG)网络,用于逐步将种子区域(即由基于CAS的框架初始化的高度可靠区域)扩展到它们的预期边界。

  第二个模块是一个用于挖掘琐碎或不完全动作区域的特定分类器,在擦除被SSG激活的种子区域后,对共享特征进行训练。

  这两个模块组成的整个网络以对抗性的方式进行训练。对手的目标是挖掘动作分类器难以识别的特征。也就是说,从SSG中的擦除将迫使分类器在输入特征序列上发现微小甚至新的动作区域,分类器将驱动种子生长,这个过程交替执行。最后,从训练好的SSG和分类器中获得动作位置和类别。

  虽然CAS倾向于在行动区域上产生稀疏的激活峰,但这些峰为挖掘行动的判别部分或非判别动作提供了重要的线索。因此,一个直观的想法是,通过参考估计的行动线索来挖掘更可靠的动作区域,称为种子。受图像分割任务中的种子生长机制的启发,作者将其应用于时间动作定位任务中。不同的是,作者在种子序列中设计了以下两种互补的生长方式。

  •将这些激活的峰值视为种子,指示重要的动作线索,然后将持续时间延长至其边界以分离种子,表示为第一种生长方式。

  •同时,从共享的特征区域中去除被激活的峰值,并进一步进行自适应分类器挖掘潜在琐碎或低判别度的动作,记为第二种增长方式。

  以上两个过程应以对抗性方式进行训练。一方面,删除SSG的种子区域将迫使分类器从特征区域中挖掘低判别度的动作区域。另一方面,分类器也会推动种子生长,交替进行。

  动作定位的种子生长机制。将CAS的峰值作为初始种子区域,扩展边界进行生长。

  模型框架图。

  (a)输入一个未裁剪的视频,将其分为N段,用一个预先训练的两流视频特征提取器将每个段编码为K维特征向量。

  (b)SSG模块,骨干网络是SSG网络,先叠加两个时序卷积层,每个卷积后面跟一个ReLU层,然后在跟一个时序卷积,该卷积为每个时间段产生类热力图H。将基于CAS的网络输出的CAS峰值作为前景种子。假设场景变化时背景区域很可能出现在两个动作持续时间之间,而一次发生的动作总是有一致的镜头运动,因此可以利用显著性检测捕捉镜头变化作为可能的背景种子。初始化后,通过生长准则G将这些种子S扩展到相邻的未标记位置N(S),从而实现迭代扩展高可靠动作或背景区域。通过seed损失来学习可靠输入段的类别。

  其中,θg分别为每个动作类和背景的预先设定的增长阈值,热力图H={Hc,t|c∈{0,···,C},t∈{1,···,N}}表示视频中第t段的类c概率分布。使用N(S)的一个简单定义来表示S中每个种子旁边位置的集合。如果G为真,将第t段的类别标记为c且将其作为新添加的监督区域。通过迭代,在不断增长的监督下,交替扩展热力图上动作和背景持续时间激活范围。

  在实践中,由于在原始时间分割框架中进行种子生长机制时,不能将共现位置分配到两个不同的类别中,因此为每个动作类别(包括背景)生成分离的种子,并分别扩展种子区域。也就是说,SSG逐个预测单个动作发生的区域,并为每个类应用生长策略。

  (c)从SSG共享特征图中去除种子区域。从SSG中的整个映射F中提取前景特征映射,然后擦除高激活区域以生成剩余的特征映射,擦除通过对激活值进行阈值化简单实现。

  (d)动作分类器,旨在挖掘相对较长或琐碎的操作,这些操作与SSG共享特征映射,由于F包含前景和背景的混合激活,我们只需要绘制前景特征进行分类。使用自适应池化(SAP)将特征集合到最终类的置信度中,具有交叉熵损失。

  ASSG框架算法如下:

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器