- 02/02
- 2021
-
QQ扫一扫
-
Vision小助手
(CMVU)
GAN综述
GAN 逆映射问题:全面调研(GAN Inversion: A Survey)
GAN 逆映射指将给定图像转化到预训练 GAN 模型的隐空间,生成器可用其逆映射码进行可靠的图像重建。
GAN逆映射成为连接真实图像和假图像的公共空间,在诸如 StyleGAN 和 BigGAN 等 GAN 模型进行图像编辑任务中起到非常重要的作用。其隐藏了我们理解 GAN 隐空间和如何生成具有真实感图像的密码。因此,研究 GAN 逆映射问题是非常重要的。
这篇综述论文聚焦于此问题,参考了240 篇文献,对近年来的算法和应用进行了全面综述(重要技术及其在图像恢复与编辑中的应用),同时指出了未来的发展趋势和挑战。
除论文外,作者还建立了相应 Github仓库,以便进一步跟踪该领域的发展:
https://github.com/weihaox/awesome-image-translation/blob/master/awesome-gan-inversion.md
作者 | Weihao Xia, Yulun Zhang, Yujiu Yang*, Jing-Hao Xue, Bolei Zhou*, Ming-Hsuan Yang*
单位 | 清华大学、美国东北大学、伦敦大学学院、香港中文大学、加利福尼亚大学默塞德分校
地址 | https://arxiv.org/abs/2101.05278
Transformer 综述
近期实火的 Transformers,“走遍”CV领域的各个方向,后期,CV君将会对 Transformers 在 CV 领域的应用做一次总结,供大家参考。
以下先来一个开胃菜 『Transformers in Vision: A Survey』,本篇综述旨在为计算机视觉学科中的 Transformers 模型提供一个全面的概述,其中涵盖了 Transformers 在计算机视觉领域中广泛应用,包括流行的识别任务(如图像分类、目标检测、动作识别和分割);Generative Models(生成模型);多模态任务(如视觉问题回答和视觉推理);视频处理(如活动识别、视频预测);low-level vision(如图像超分辨率和着色);3D分析(如点云分类和分割)。并从架构设计和实验价值两个方面比较了流行技术各自的优势和局限性。
最后,作者对开放的研究方向和未来可能的工作进行了分析。
作者 | Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah
单位 | MBZUAI;蒙纳士大学等
论文 | https://arxiv.org/abs/2101.01169
人脸超分辨率综述
Deep Learning-based Face Super-resolution: A Survey
人脸超分辨率也称为人脸幻构,目的是提高一张或一序列低分辨率(LR)人脸图像的分辨率,生成相应的高分辨率(HR)人脸图像,是一个特定领域的图像超分辨率问题。最近,人脸超分辨率受到了相当大的关注,并见证了深度学习技术的耀眼进展。但到目前为止,关于基于深度学习的人脸超分辨率的研究总结还很少。
在本次调查中,作者系统地对人脸超分辨率中的深度学习技术进行了全面的回顾。
首先,总结了人脸超分辨率的问题表述。
第二,比较了通用图像超分辨率和人脸超分辨率的区别。
第三,介绍了人脸幻构中常用的数据集和性能指标。
第四,根据人脸特定信息的利用情况,对现有方法进行粗略分类。在每一个类别中,首先对设计原则进行总体描述,对有代表性的方法进行概述,并比较各种方法之间的异同。
最后,展望了该领域技术进一步发展的前景。
作者 | Junjun Jiang, Chenyang Wang, Xianming Liu, Jiayi Ma
单位 | 哈尔滨工业大学;武汉大学
论文 | https://arxiv.org/abs/2101.03749
单分类综述
One-Class Classification: A Survey
单类分类(OCC)是多类分类的一种特殊情况,在训练过程中来自 single positive class 观察到的数据。OCC 的目标是学习一个表示和/或一个分类器,使其在推理过程中能够识别正向标签的查询。
近年来,这一主题在计算机视觉、机器学习和生物识别学界受到了相当大的关注。在本次调研中,作者对经典的统计方法和近期基于深度学习的视觉识别 OCC方法进行了调查。讨论了现有 OCC 方法的优点和缺点,并确定了该领域有前途的研究方向。此外,还对 OCC 常用的数据集和评估指标进行了讨论。
作者 | Pramuditha Perera, Poojan Oza, Vishal M. Patel
单位 | 约翰斯·霍普金斯大学
论文 | https://arxiv.org/abs/2101.03064
人员重识别综述
『Deep Learning for Person Re-identification: A Survey and Outlook』
是 TPAMI 2021 最新文章,对深度学习行人重识别的综述与展望,第一作者来自武汉大学的 叶茫,上周在我爱计算机视觉公众号也发布了本篇文章的详细解读,感兴趣的读者可以查看【 】
行为识别综述
Human Activity Recognition using Wearable Sensors: Review, Challenges, Evaluation Benchmark
本次调查中,作者对近期基于可穿戴传感器的人类活动识别中的优异表现方法进行了广泛回顾。
由于缺乏标准化的评价,为了评估和确保最先进的技术之间的公平比较,作者利用六个公开的数据集 MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, and OPPORTUNITY,对最先进的技术进行了标准化的评估基准。
同时提出一种实验性的改进方法,先利用特征工程提取特征,然后采用 3 层神经网络架构,以此混合实验进行人类活动识别。在同样的标准化评估基准下,实验表明该混合实验具有较强的泛化能力和较高的识别精度,在 MHealth、USCHAD、UTD-1 和 UTD-2 数据集上的表现优于所有的先进技术。
作者 | Reem Abdel-Salam, Rana Mostafa, Mayada Hadhood
单位 | 埃及开罗大学
论文 | https://arxiv.org/abs/2101.01665
遥感土地利用分析综述
Urban land-use analysis using proximate sensing imagery: a survey是对 proximate sensing 支持土地利用分析的最先进方法和公开的数据集进行了全面回顾。
作者 | Zhinan Qiao, Xiaohui Yuan
论文 | https://arxiv.org/abs/2101.04827
深度神经网络综述
Hyperbolic Deep Neural Networks: A Survey
本文围绕双曲深层神经网络构建中的神经组件,以及领先的深层方法在双曲空间的泛化,对文献进行了连贯而全面的回顾。
还介绍了当前在几个公开可用的数据集上围绕各种机器学习任务的应用,以及有洞察力的见地和确定开放的问题和有前途的未来方向。
authors | Wei Peng, Tuomas Varanka, Abdelrahman Mostafa, Henglin Shi, Guoying Zhao
units | 芬兰奥卢大学
paper | https://arxiv.org/abs/2101.0456