当前位置: 首页 > >

论文推荐-计算机视觉

发布时间:

推荐几篇这几天看到的个人认为比较有意思的paper,


1.Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning


通过添加背景的方式移除背景,算是一种新的自监督的视频表示学*。


目的:提出了一种新颖的对时间敏感的背景擦除(TBE)方法进行自监督学*。这种方法最小化了样本之间的特征距离以及通过时空变换和视频内混合构建的样本的变化。


主要问题背景:当前的视频表示学*受到了back-ground cheating的问题,即静态背景帧会影响到动作相关的特征的学*,这样会使学*过程受到影响。


方法:作者提出通过添加背景来消除背景的影响。核心思想是:给定一个视频,随机选择一个静态帧,然后将其添加到所有帧中,构建一个分散注意力的视频样本。接着强制模型提取分散注意力视频的特征以及原始视频的特征,使得两者尽量相似,这样可以使模型受到限制以抵抗背景的影响,从而更多地关注运动特征的变化。另外,为了防止静态帧过多地干扰运动区域,作者将特征限制为与逆向视频的时域反转特征相一致,从而使模型将更多的注意力集中到运动特征。



? 图 1 background cheating的解释



? 图2 TBE方法的框架



? 图 3 TBE算法训练流程



? 图 4 将随机静态帧添加到其他帧中


作者设计了两种loss function来学*分散注意力视频特征与原始特征,



以及消除时域敏感的背景




? 图5 实验结果可视化


论文链接:


https://arxiv.org/pdf/2009.05769.pdf


2.Understanding Deformable Alignment in Video Super-Resolution


理解视频超分中的可变性对齐


这篇work主要用到了可变形卷积,以往的可变形卷积常用于目标的几何变化的适应,而目前逐渐用于视频超分的帧对齐应用中。


作者研究了可变形对准与基于流的对准之间的关系,发现了可变形对准和基于流的对准之间在概念和行为上的内在联系。研究表明:可变形卷积可以分解为空间扭曲(spatial wraping)和卷积的组合。这种分解揭示了可变形排列和基于流的排列的共同点,但是它们的偏移多样性存在关键差异。通过实验进一步证明了可变形对准的多样性产生了更好对准的特征,显着提高了视频超分辨率输出的质量。


另外作者提出一种偏移保真度的loss,该loss可以直到optical flow进行偏移学*。



? 图1 基于flow的对齐和基于可变形的对齐



? 图2 可变形卷积的分解



? 图3 可变形对齐应用于可变形卷积


实验结果的可视化:





论文链接 https://arxiv.org/pdf/2009.07265.pdf


    MU-GAN: Facial Attribute Editing based on Multi-attention Mechanism

    多注意力机制的人脸编辑

    面部属性编辑分为两个方面:

    将图片从源域转换为目标域;仅更改与目标属性相关的面部区域,保留不包含属性的信息。

    作者提出了一个基于多注意力U-Net的生成对抗网络(MU-GAN)。

    大致流程:首先在生成器中用对称的类似U-Net的结构替换经典的卷积编码器-解码器,然后应用加法注意力机制来建立基于注意力的U-Net连接,以自适应地传递编码器表示,补充具有属性的解码器-排除细节并增强属性编辑能力。其次,将自注意力机制合并到卷积层中,以对跨层的远程和多级依赖项进行图像区域建模。



? 图 1 各种GAN生成的图像对比



? 图2 MU-GAN的架构



? 图3 生成器的架构



? 图4 自注意力的结构



? 图5 MU-GAN与baseline的对比



? 图6


论文链接 https://arxiv.org/pdf/2009.04177.pdf


代码 https://github.com/SuSir1996/MU-GAN.git


4.Neural Crossbreed: Neural Based Image Metamorphosis


作者提出了神经杂交:个人觉得这一点跟神经风格迁移有些类似,但是也有不同。通过前馈神经网络学*隐空间输入图像的语义变化以此产生变形效果。由于网络学*了语义变化,因此可以生成一系列中间图像。作者提出的网络可以分别处理图像的形状和外观变化,实现很大程度的可用性。



? 图 1 神经杂交



? 图2 神经杂交总览



? 图3 内容与风格变换的解耦合



? 图 4 网络架构


论文链接 https://arxiv.org/pdf/2009.00905.pdf


这几篇paper主要涉及到视频超分,神经语义相关的运算以及如何设计相关loss等


有些论文作者并未开源代码,所以我打算抽空将论文复现一下


图 4 网络架构

论文链接 https://arxiv.org/pdf/2009.00905.pdf


这几篇paper主要涉及到视频超分,神经语义相关的运算以及如何设计相关loss等


有些论文作者并未开源代码,所以我打算抽空将论文复现一下
AI算法后丹修炼炉是一个由各大高校以及一线公司的算法工程师组建的算法与论文阅读分享组织。我们不定期分享最新论文,资讯,算法解析,以及开源项目介绍等。欢迎大家关注,转发,点赞。同时也欢迎大家来*台投稿,投稿请添加下方小助手微信。


QQ交流群:216912253


查看更多交流方式


微信公众号:AI算法后丹修炼炉


小助手ID:jintianandmerry



友情链接: