使用剪辑执行多个视频任务！ Shangshou＆Oxford提议根据提示将剪辑扩展到多个视频任务。

主机参考：VPS测评参考推荐/专注分享VPS服务器优惠信息！若您是商家可以在本站进行投稿，查看详情！此外我们还提供软文收录、PayPal代付、广告赞助等服务，查看详情！

我们发布的部分优惠活动文章可能存在时效性，购买时建议在本站搜索商家名称可查看相关文章充分了解该商家！若非中文页面可使用Edge浏览器同步翻译！PayPal代付/收录合作

在本文中，我分享了一篇题为“鼓励视觉语言模型以有效的视频理解”的论文，并向您展示如何使用剪辑模型完成多个视频任务。上海Joton大学和牛津大学的研究团队以快速的方式将剪辑扩展到了多个视频任务，在公开场合上表现出色。

详细信息如下：

纸张链接：https：//www.php.cn/link/0272139A5B83CF5BBE88F311C27966670：

展示了视觉语言证明视觉文本的成功。概括。在本文中，我们提出了一种简单的方法，用于将预处理的视觉语言模型应用于新的视频理解任务，并通过最少的培训。具体而言，作者建议优化几个称为“顺序提示向量”的随机向量，以将新任务转换为与预训练目标相同的格式。

此外，为了填补静态图像和视频之间的空白，时间信息是由轻量级变压器编码的，这些变压器堆叠在框架的视觉特征之上。作者进行了广泛的消融研究，以分析关键组成部分。与现有方法相比，凭借九个一般的动作识别，动作定位和文本视频搜索的基准，在封闭场景，小型镜头和开放式场景中，可以实现竞争性或最前沿的性能，从而大大降低了培训参数。

动机

虽然计算机视觉研究的重点是解决特定任务，但人类感知的目标始终是学习一般的视觉表示，并且通过最少的调整，可以解决各种问题。关于培训视觉语言模型的最新研究已显示出实现这一目标的良好进步。例如，剪辑和一个Lign通过简单的噪声对比学习来学习图像和文本的协作表示。这可以从大量文本描述中受益匪浅，例如动作，对象，对象相互作用，对象等等。

因此，这些视觉语言模型在各种图像分类任务中表现出极好的“零样本”概括性能。重要的是，这些数据可以在线和大规模检索，而无需昂贵的手动注释。因此，可以合理地相信，随着计算能力的增加，将收集较大的数据集，并且将在不久的将来对更强大的模型进行培训。

基于此背景自然出现的问题。我们如何利用这些强大的视觉语言模型的功能，有效地调整它们并有效地调整它们以解决特定的新型视觉任务？一种可能的解决方案是将图像编码器添加到所考虑的下游任务中，但是数百个单独的任务需要数百个模型，因为每个下游任务都需要存储自己的一组参数。

丢弃文本编码器将导致概括“零样本”的能力，因此所得模型只能应用于一组预定义的类别。一个剪辑，给定一个精心设计的“芯片”，该模型可以处理从类名称或其他免费表单文本中的各种下游任务，其中分类是由文本编码动态生成的。此处的提示是一个用于简单分类生成的手工填充模板，因此下游的视觉任务将以与预训练预训练目标相同的格式，从而有效地缩小了训练和下游任务之间的差距。剩下的问题是，这种手工制作技巧需要大量的专业知识和劳动力，从而限制了其用于有效的任务适应的用途。

在本文中，作者继续他的快速学习，目的是探索适应新任务的视觉语言模型的有效方法。作者通过在文本输入中添加一系列随机向量（称为“连续提示向量”）来实现一个简单的想法。这些提示向量由与实际特定单词不符的自由参数组成，文本编码器的下一层参与优化这些向量，就好像它们是类别的顺序或嵌入了“虚拟令牌”。文本编码器的重量保持冷冻，但梯度通过其向后传播，以优化可训练的提示向量。因此，视觉骨干网络可以在每个任务上执行各种视频理解任务可以训练的参数数量是最小的。换句话说，只有几个快速向量。

本文中的框架在上图中显示。作者的目标是有效地得出基于图像的临时语言模型并处理新的下游任务。此过程称为模型适应。

2.1。视觉语言模型：如果将n对（图像，文本）放在样本批处理中，则剪辑使用两个编码器来计算图像和文本的特征嵌入，并计算所有可能的n（图像，文本）对之间的密集余弦相似性矩阵。培训的目的是协作优化图像和文本编码器密集矩阵的熵，同时最大程度地提高N-校正（图像，文本）相关对之间的相似性，同时最小化对称的交叉熵，即由于噪声比较学习，N×（n×（n-1）之间的相似性之间的相似性。

输入图像分为贴片并转换为“视觉令牌”。输入文本通过可训练的查找表转换为“文本令牌”。

训练后，剪辑可以部署打开的词汇分类任务，并从文本Encoder（）生成视觉分类语句。例如，要将图像归类为猫或狗，您可以产生视觉分类语句，如下所示：

尽管在零拍摄图像分类方面取得了巨大成功，但事实证明，剪辑已证明对手工制作的提示模板很敏感，并且似乎限制了对新的下游任务有效适应专业知识的有效适应。因此，在这里，作者考虑了自动化，快速的设计，并研究了适应新的与下游视频相关任务的预训练的视觉语言模型的有效方法。

2.2。考虑到包含培训和验证集的数据集，通过提示2.2.1问题的启动剪辑进行视频理解。视频范围从秒（识别和搜索）到几分钟（本地化）。对于动作识别和定位任务，它是一个类别词。对于搜索任务，这是一个语句。

关闭集计划，培训和经过验证的操作类别是相同的。在开放式方案中，经过训练的，经过验证的操作类别不会相交。换句话说，通过学习提示，2.2.2模型的改编是指导预训练的剪辑模型，以最少的培训执行各种视频任务。作者通过在文本令牌中添加一系列连续的随机向量（“提示向量”）来实现有效的模型适应。在训练过程中，剪辑的图像和文本编码器都被冷冻，渐变通过文本编码器，并且仅更新了提示向量。最终，这些学习向量最终将构建一个“虚拟”提示模板，文本编码器可以理解并生成所需的分类或查询的嵌入。

动作识别是视频中动作的分类。要生成分类文本，作者通过将令牌化操作类别名称输入到预处理的文本Encoder（）中来构造“虚拟”提示模板，如下所示。指“射箭”动作的生成分类语句。在这里，所有操作类别都共享提示向量。

运动定位考虑在未编写视频中的动作的放置和分类。作者使用了两个阶段的范式。首先，我们检测到潜在的独立行为建议，然后对这些检测到的建议进行动作分类。

文本视频搜索考虑了协作学习视频和相应文本描述之间的视觉和文本嵌入。与动作识别相反，视频剪辑大致由动作类别标记，并且视频搜索中的文本说明通常包含句子。在这里，作者将整个句子的标记化，并使用可学习的提示向量为文本编码提供了令牌化结果，以生成每个语句的查询嵌入。

2.2.3预训练时间建模，剪辑完全取决于图像文本对。一方面，可以轻松地从网络搜索培训（图像，文本）数据。这使您可以在某些计算约束下学习更丰富的内容。但是，另一方面，它忽略了视觉场景的时间成分。因此，作者通过添加简单的时间建模模块来弥合图像和视频之间的差距。

具体来说，作者使用了剪贴画映像编码器视频编码器升级是将冷冻图像编码器的逐帧功能连接到变压器：

v {i} = \ phi {\ text {video}} \ left（\ mathcal {v} {i} {i} {i} \ right）= \ phi {\ phi {\ phi {{\ phi {temp}}} \ lef t（\ left {\ phi {\ text {image}}}} \ left（i {i1} \ right），\ ldots，\ phi {\ phi {\ text {image}} \ left（i {i {i t} \ right）\ right} \ right）表示代表按时间顺序的顺序，作者还添加了可学习的时间位置以编码为图像函数。表示T帧的密集特征嵌入。

2.2.4考虑训练损失批次（视频，文本）对，视觉流最终被表示为嵌入的密集框架。另一方面，根据所考虑的下游任务，文本流表示为一组嵌入式动作分类的语句或文本查询。

For action recognition and text video search, the author further calculates video clip-level features by averaging the dense features:

\bar {v} {i} = \phi {\text {pool}} \left(v_{i} \right^{nate) For action positioning, the author uses the average pooling of the dense features in each detected action提出提案级特征的建议。在培训过程中，作者协作优化了文本提示向量和时间建模模块，视频功能和配对分类或嵌入文本查询获得了最佳的相似性分数。这是通过简单的损失来实现的：

\ Mathcal {l} = - \ sum {I} c {i}/\ tau \ right）} \ right）03

实验

3.1。动作识别3.1.1封闭设置的操作识别封闭设置动作识别表上的表显示了在两个数据集上进行封闭的集合操作识别的消融实验的结果。

上表显示了封闭设置的动作识别和最新结果（SOTA）结果的比较。

3.1.2上表显示了此方法的实验结果，以识别少量动作。

3.1.3打开设置的操作识别上表显示了这种开放式动作识别方法的实验结果。

3.2。动作定位3.2.1封闭设置的位置在上面的表位置上方的表位置显示了该方法与封闭设置动作定位任务的最新方法（SOTA）方法的比较。

3.2.2上表显示了此方法的实验结果，用于开放式操作定位任务。

3.3。上表显示了视频文本搜索中此方法的实验结果

摘要

在本文中，我们建议使用剪辑执行三个任务的方法：动作识别，文本视频搜索和动作定位。在前两个任务中，处理方法类似于ActionClip和Clip4Clip。在第三个任务中，作者采用了两阶段的方法，首先提取所有片段建议，然后将每个建议的相似性与查询文本进行比较以实现搜索目标。此外，为了捕获视频定时信息，作者还将时间编码器添加到图像编码器中。在小样本和开放方案中，本文中的方法极大地胜过所有任务的现有方法，有时超过10％。

PHP速度学习视频免费教程（从初学者那里学到）

如何学习PHP？如何开始PHP？我在哪里可以学习PHP？如何立即学习PHP？不用担心，这是PHP速度学习教程（向初学者学习）。需要它的朋友可以保存和下载并学习它！

下载

这几篇文章你可能也喜欢：

本文由主机参考刊发，转载请注明：使用剪辑执行多个视频任务！ Shangshou＆Oxford提议根据提示将剪辑扩展到多个视频任务。 https://zhujicankao.com/147972.html

使用剪辑执行多个视频任务！ Shangshou＆Oxford提议根据提示将剪辑扩展到多个视频任务。

这几篇文章你可能也喜欢：

相关推荐

评论抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

这几篇文章你可能也喜欢：

相关推荐

评论 抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

评论抢沙发