首页 > 论文写作

EfficientDet : 快又准，EfficientNet作者在目标检测领域的移植 | CVPR 2020？

写个论文 2023-01-09 20:55:48

论文降重独有的降重技术

免费使用，100%过查重，多种降重模式，1小时轻松搞定论文

论文查重检测与学校相同

一站式聚合查重平台，含知网、万方、维普等，正品价格便宜

问：EfficientDet : 快又准，EfficientNet作者在目标检测领域的移植 | CVPR 2020？

答： 论文: EfficientDet: Scalable and Efficient Object Detection

目前目标检测领域，高精度的模型通常需要很大的参数量和计算量，而轻量级的网络则一般都会牺牲精度。因此，论文希望建立一个可伸缩的高精度且高性能的检测框架。论文基于one-stage的检测网络范式，进行了多种主干网络、特征融合和class/box预测的结构尝试，主要面临两个挑战:

FPN是目前最广泛的多尺度融合方法，最近也有PANet和NAS-FPN一类跨尺度特征融合方法。对于融合不同的特征，最初的方法都只是简单地直接相加，然而由于不同的特征是不同的分辨率，对融合输出特征的共享应该是不相等的。为了解决这一问题，论文提出简单但高效加权的bi-directional feature pyramid network(BiFPN)，该方法使用可学习的权重来学习不同特征的重要性，同时反复地进行top-down和bottom-up的多尺度融合

论文认为除了缩放主干网络和输入图片的分辨率，特征网络(feature network)和box/class预测网络的缩放对准确率和性能也是很重要的。作者借鉴EfficientNet，提出针对检测网络的混合缩放方法(compound scaling method)，同时对主干网络，特征网络和box/class预测网络的分辨率/深度/宽度进行缩放

最后，论文将EfficientNet作为主干，结合BiFPN和混合缩放，提出新的检测系列EfficientDet，精度高且轻量，COCO上的结果如图1，论文的贡献有以下3点：

定义多尺寸特征，论文的目标是找到变化函数来高效融合不同的特征，输出新特征。具体地，图2a展示了top-down FPN网络结构，一般FPN只有一层，这里应该为了对比写了repeat形式。FPN获取3-7层的输入，代表一个分辨率为的特征层

top-down FPN操作如上所示，为上采用或下采样来对齐分辨率，通常是特征处理的卷积操作

top-down FPN受限于单向的信息流，为了解决这一问题，PANet(图2b)增加了额外的bottom-up路径的融合网络，NAS_FPN(图2c)使用神经架构搜索来获取更好的跨尺度特征网络的拓扑结构，但需要大量资源进行搜索。其中准确率最高的是PANet，但是其需要太多的参数和计算量，为了提高性能，论文对跨尺寸连接做了几点改进：

大多的特征融合方法都将输入特征平等对待，而论文观察到不同分辨率的输入对融合输出的特征的贡献应该是不同的。为了解决这一问题，论文提出在融合时对输入特征添加额外的权重预测，主要有以下方法：

，是可学习的权重，可以是标量(per-feature)，也可以是向量(per-channel)，或者是多维tensor(per-pixel)。论文发现标量形式已经足够提高准确率，且不增加计算量，但是由于标量是无限制的，容易造成训练不稳定，因此，要对其进行归一化限制

，利用softmax来归一化所有的权重，但softmax操作会导致GPU性能的下降，后面会详细说明

，Relu保证，保证数值稳定。这样，归一化的权重也落在，由于没有softmax操作，效率更高，大约加速30%

BiFPN集合了双向跨尺寸的连接和快速归一化融合，level 6的融合操作如上，为top-down路径的中间特征，是bottom-up路径的输出特征，其它层的特征也是类似的构造方法。为了进一步提高效率，论文特征融合时采用depthwise spearable convolution，并在每个卷积后面添加batch normalization和activation

EfficientDet的结构如图3所示，基于one-stage检测器的范式，将ImageNet-pretrained的EfficientNet作为主干，BiFPN将主干的3-7层特征作为输入，然后重复进行top-down和bottom-up的双向特征融合，所有层共享class和box网络

之前检测算法的缩放都是针对单一维度的，从EfficientNet得到启发，论文提出检测网络的新混合缩放方法，该方法使用混合因子来同时缩放主干网络的宽度和深度、BiFPN网络、class/box网络和分辨率。由于缩放的维度过多，EfficientNet使用的网格搜索效率太慢，论文改用heuristic-based的缩放方法来同时缩放网络的所有维度

EfficientDet重复使用EfficientNet的宽度和深度因子，EfficinetNet-B0至EfficientNet-B6

论文以指数形式来缩放BiFPN宽度 (#channels)，而以线性形式增加深度 (#layers)，因为深度需要限制在较小的数字

box/class预测网络的宽度固定与BiFPN的宽度一致，而用公式2线性增加深度(#layers)

因为BiFPN使用3-7层的特征，因此输入图片的分辨率必需能被整除，所以使用公式3线性增加分辨率

结合公式1-3和不同的，论文提出EfficientDet-D0到EfficientDet-D6，具体参数如Table 1，EfficientDet-D7没有使用，而是在D6的基础上增大输入分辨率

模型训练使用momentum=0.9和weight decay=4e-5的SGD优化器，在初始的5%warm up阶段，学习率线性从0增加到0.008，之后使用余弦衰减规律(cosine decay rule)下降，每个卷积后面都添加Batch normalization，batch norm decay=0.997，epsilon=1e-4，梯度使用指数滑动平均，decay=0.9998，采用和的focal loss，bbox的长宽比为，32块GPU，batch size=128，D0-D4采用RetinaNet的预处理方法，D5-D7采用NAS-FPN的增强方法

Table 2展示了EfficientDet与其它算法的对比结果，EfficientDet准确率更高且性能更好。在低准确率区域，Efficient-D0跟YOLOv3的相同准确率但是只用了1/28的计算量。而与RetianaNet和Mask-RCNN对比，相同的准确率只使用了1/8参数和1/25的计算量。在高准确率区域，EfficientDet-D7达到了51.0mAP，比NAS-FPN少使用4x参数量和9.3x计算量，而anchor也仅使用3x3，非9x9

论文在实际的机器上对模型的推理速度进行了对比，结果如图4所示，EfficientDet在GPU和CPU上分别有3.2x和8.1x加速

论文对主干网络和BiFPN的具体贡献进行了实验对比，结果表明主干网络和BiFPN都是很重要的。这里要注意的是，第一个模型应该是RetinaNet-R50(640)，第二和第三个模型应该是896输入，所以准确率的提升有一部分是这个原因。另外使用BiFPN后模型精简了很多，主要得益于channel的降低，FPN的channel都是256和512的，而BiFPN只使用160维，这里应该没有repeat

Table 4展示了Figure 2中同一网络使用不同跨尺寸连接的准确率和复杂度，BiFPN在准确率和复杂度上都是相当不错的

Table 5展示了不同model size下两种加权方法的对比，在精度损失不大的情况下，论文提出的fast normalized fusion能提升26%-31%的速度

figure 5展示了两种方法在训练时的权重变化过程，fast normalizaed fusion的变化过程与softmax方法十分相似。另外，可以看到权重的变化十分快速，这证明不同的特征的确贡献是不同的，

论文对比了混合缩放方法与其它方法，尽管开始的时候相差不多，但是随着模型的增大，混合精度的作用越来越明显

论文提出BiFPN这一轻量级的跨尺寸FPN以及定制的检测版混合缩放方法，基于这些优化，推出了EfficientDet系列算法，既保持高精度也保持了高性能，EfficientDet-D7达到了SOTA。整体而言，论文的idea基于之前的EfficientNet，创新点可能没有之前那么惊艳，但是从实验来看，论文推出的新检测框架十分实用，期待作者的开源

问：【Paper Reading】Deep Snake for Real-Time Instance Segmentation CVPR2020`Oral Paper？

答：https://arxiv.org/abs/2001.01629
https://github.com/zju3dv/snake/
当前做instance segmentation的大多数工作采用了Mask R-CNN 的Pipeline。
它基本的pipeline是先检测物体矩形框，然后在矩形框中做逐像素分割。
Mask R-CNN达到了很好的instance segmentation的结果，但是这样的pipeline其实有一些limitation：
考虑到逐像素分割有诸多限制，文章的工作选择用contour来表示物体的shape。Contour是一组有序的点，而且是首尾相连的。比如图片中猫的边缘就是一个Contour。
Contour相对于用稠密像素表示物体有两大优势：
实例分割是许多计算机视觉任务中的重要手段，目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法。受snake算法和Curve-GCN的启发，论文采用基于轮廓的逐步调整策略，提出了Deep snake算法进行实时实例分割，该算法将初始轮廓逐渐优化为目标的边界，如图所示，达到很好的性能且依然保持很高的实时性(32.3fps)。
Deep snake方法将初始轮廓逐渐优化为目标的边界来进行目标分割，即将物体轮廓作为输入，基于CNN主干特征预测每个顶点的偏移量。为了充分利用轮廓拓扑结构，论文使用循环卷积(circular convolution)进行顶点特征的学习，有助于学习轮廓的优化，并基于deep snake提出了一套实时实例分割的流程。
传统的snake算法将顶点的坐标作为变量来优化人工设计的能量函数(energy function)，通过最小化能量函数来拟合目标边界。由于能量函数通常是非凸的，而且需要基于低维图像特征进行人工设计，通常会陷于局部最优解。
而deep snake则是直接从数据学习如何微调轮廓，对于个顶点，首先构造每个顶点的特征向量，顶点的特征为对应的网络特征和顶点坐标的concate，其中为主干网络输出的特征图，为顶点处的双线性差值输出，附加的用于描述顶点间的位置关系，是平移不变的，由每个顶点坐标减去轮廓中所有顶点的最小和得到相对坐标。
在获得顶点特征后，需要对轮廓特征进一步学习，顶点的特征可以视作1-D离散信号，然后使用标准卷积对顶点逐个进行处理，但这样会破坏轮廓的拓扑结构。因此，将顶点特征定义为公式1的周期信号，然后使用公式2的循环卷积进行特征学习，为可学习的卷积核，为标准卷积操作。
将deep snake加入到目标检测模型中进行实例分割，流程如图b所示。模型首先产生目标框，将其构建成菱形框，然后使用deep snake算法将菱形顶点调整为目标极点，构造八边形轮廓，最后进行迭代式deep snake轮廓调整得到目标形状
论文采用ExtreNet的极点思想，能够很好地包围物体。在得到矩形框后，获取4条边的中心点连成菱形轮廓，使用deep snake对菱形轮廓调整成极点，然后每个极点放置一条边，连接边构造多边形，每个极点的边为其对应的bbox边的，若边超过原bbox范围会被截断。在实际使用时，菱形轮廓输入deep snake前会平均上采样到40个点(有助于deep snake计算)，但损失函数计算只考虑的对应偏移
对八边形平均采样个点，将上极点作为起点，同样地，GT轮廓对物体边缘平均采样个点，将靠近的点作为起点，一般为128。如果顶点离GT很远，很难直接正确调整，于是采用迭代式地进行deep snake调整，实验采用的迭代次数为3次。
轮廓是目标空间位置的一种扩展表示方法，通过调整轮廓到物体边缘能够帮助解决detector的定位误差
由于遮挡，一个实例可能包含多个组件，然而一个轮廓只能勾勒出bbox内的一个组件。为了解决这个问题，使用RoIAlign来提取初始bbox特征，然后配合detector来检测组件的box，再对每个box进行上述的轮廓调整，最后结合初始bbox内相同类别的组件输出最终的物体形状。
极点的损失函数如公式3，为预测的极点。
迭代轮廓调整的损失函数如公式4，为调整后的顶点，为对应的GT边缘点。对于检测部分，则采用跟原检测函数一样的损失函数。
使用CenterNet作为检测器，对于物体检测，使用跟原来一样的设定输出类别相关的box，而对于组件检测，则使用类不可知的CenterNet，对于的特征图，输出的中心点heatmap和的box大小特征图。
Baseline将轮廓视为图结构，然后使用GCN进行轮廓调整，初始轮廓为围绕bbox的椭圆，Arichitecture加入Fusion block，Initial proposal加入论文的轮廓初始化方法，最后是将GCN修改为循环卷积，可以看到每个步骤都对AP有提升。
论文也对比了卷积类型以及迭代次数对结构的影响，可以看到循环卷积的结果比GCN要好。
论文在不同的数据集上都取得了不错的效果，作者在每个数据集上的训练参数都有点不一样，具体参数可以看看原文
论文提出基于轮廓的实例分割方法Deep snake，轮廓调整是个很不错的方向，引入循环卷积，不仅提升了性能还减少了计算量，保持了实时性，但是Deep snake的大体结构不够优雅，应该还有一些工作可以补
[1] 彭思达 - 实例分割新思路: Deep Snake (CVPR20'Oral Paper)
[2] Deep Snake: 基于轮廓调整的SOTA实例分割方法，速度32.3fps| CVPR 2020
[3] He, Kaiming, et al. "Mask r-cnn." In ICCV, 2017.
[4] Kass, Michael, Andrew Witkin, and Demetri Terzopoulos. "Snakes: Active contour models." In IJCV, 1988.
[5] Ling, Huan, et al. "Fast interactive object annotation with curve-gcn." In CVPR, 2019.
[6] Zhou, Xingyi, Jiacheng Zhuo, and Philipp Krahenbuhl. "Bottom-up object detection by grouping extreme and center points." In CVPR, 2019.
[7] Zhou, Xingyi, Dequan Wang, and Philipp Krahenbuhl. "Objects as points." In arXiv preprint arXiv:1904.07850, 2019.

问：GNN in CVPR2020？

答：CVPR 2020一共收录了67篇GNN相关论文。有空慢慢更。
1.GraphTER: Unsupervised Learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformations [MSAR] https://www.bilibili.com/video/av710708361/
2.Grid-GCN for Fast and Scalable Point Cloud Learning [点云]
https://arxiv.org/abs/1912.02984
摘要：由于点云数据的稀疏性和不规则性，越来越多的方法直接使用点云数据。在所有基于point的模型中，图卷积网络（GCN）通过完全保留数据粒度和利用点间的相互关系表现出显著的性能。然而，基于点的网络在数据结构化(例如，最远点采样(FPS)和邻接点查询)上花费了大量的时间，限制了其速度和可扩展性。本文提出了一种快速、可扩展的点云学习方法--Grid-GCN。Grid-GCN采用了一种新颖的数据结构策略--Coverage-Aware Grid Query(CAGQ)。通过利用网格空间的效率，CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。与最远的点采样（FPS）和Ball Query等流行的采样方法相比，CAGQ的速度提高了50倍。通过网格上下文聚合(GCA)模块，Grid-GCN在主要点云分类和分割基准上实现了最先进的性能，并且运行时间比以前的方法快得多。值得注意的是，在每个场景81920个点的情况下，Grid-GCN在ScanNet上的推理速度达到了50fps。
3. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
https://arxiv.org/abs/2002.11566
摘要：充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示，并且由于长尾（long-tailed）问题而对与内容相关的词缺乏足够的训练。在本文中，我们提出了一个完整的视频字幕系统，包括一种新的模型和一种有效的训练策略。具体地说，我们提出了一种基于目标关系图(ORG)的编码器，该编码器捕获了更详细的交互特征，以丰富视觉表示。同时，我们设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法，充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词，这些单词扩展了用于训练的真实单词，以解决长尾问题。对三个基准MSVD，MSR-VTT和VATEX进行的实验评估表明，所提出的ORG-TRL系统达到了最先进的性能。广泛的消去研究和可视化说明了我们系统的有效性。
4. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
https://arxiv.org/abs/2002.11927
https://github.com/abduallahmohamed/Social-STGCNN
摘要：有了更好地了解行人行为的机器可以更快地建模智能体（如：自动驾驶汽车）和人类之间的特征交互。行人的运动轨迹不仅受行人自身的影响，还受与周围物体相互作用的影响。以前的方法通过使用各种聚合方法（整合了不同的被学习的行人状态）对这些交互进行建模。我们提出了社交-时空图卷积神经网络(Social-STGCNN)，它通过将交互建模为图来代替聚合方法。结果表明，最终位偏误差(FDE)比现有方法提高了20%，平均偏移误差(ADE)提高了8.5倍，推理速度提高了48倍。此外，我们的模型是数据高效的，在只有20%的训练数据上ADE度量超过了以前的技术。我们提出了一个核函数来将行人之间的社会交互嵌入到邻接矩阵中。通过定性分析，我们的模型继承了行人轨迹之间可以预期的社会行为。
5. Unbiased Scene Graph Generation from Biased Training
https://arxiv.org/abs/2002.11949
https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch
摘要：由于严重的训练偏差，场景图生成（SGG）的任务仍然不够实际，例如，将海滩上的各种步行/坐在/躺下的人简化为海滩上的人。基于这样的SGG，VQA等下游任务很难推断出比一系列对象更好的场景结构。然而，SGG中的debiasing 是非常重要的，因为传统的去偏差方法不能区分好的和不好的偏差，例如，好的上下文先验(例如，人看书而不是吃东西)和坏的长尾偏差(例如，将在后面/前面简化为邻近)。与传统的传统的似然推理不同，在本文中，我们提出了一种新的基于因果推理的SGG框架。我们首先为SGG建立因果关系图，然后用该因果关系图进行传统的有偏差训练。然后，我们提出从训练好的图中提取反事实因果关系（counterfactual causality），以推断应该被去除的不良偏差的影响。我们使用Total Direct Effect作为无偏差SGG的最终分数。我们的框架对任何SGG模型都是不可知的，因此可以在寻求无偏差预测的社区中广泛应用。通过在SGG基准Visual Genome上使用我们提出的场景图诊断工具包和几种流行的模型，与以前的最新方法相比有显著提升。
6. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
https://arxiv.org/abs/2001.06891
在本文中，我们考虑了一项用于多形式句子（Multi-Form Sentences）的时空Video Grounding（STVG）的任务。即在给定未剪辑的视频和描述对象的陈述句/疑问句，STVG旨在定位所查询目标的时空管道（tube）。STVG有两个具有挑战性的设置：(1)我们需要从未剪辑的视频中定位时空对象管道，但是对象可能只存在于视频的一小段中；（2）我们需要处理多种形式的句子，包括带有显式宾语的陈述句和带有未知宾语的疑问句。由于无效的管道预生成和缺乏对象关系建模，现有方法无法解决STVG任务。为此，我们提出了一种新颖的时空图推理网络(STGRN)。首先，我们构建时空区域图来捕捉具有时间对象动力学的区域关系，包括每帧内的隐式、显式空间子图和跨帧的时间动态子图。然后，我们将文本线索加入到图中，并开发了多步跨模态图推理。接下来，我们引入了一种具有动态选择方法的时空定位器，该定位器可以直接检索时空管道，而不需要预先生成管道。此外，我们在视频关系数据集Vidor的基础上构建了一个大规模的video grounding数据集VidSTG。大量的实验证明了该方法的有效性。

问：[CVPR2020]论文翻译SwapText: Image Based Texts Transfer in Scenes？

答：

由于不同因素之间的复杂作用，在保留原始字体，颜色，大小和背景纹理的同时在场景图像中交换文本是一项具有挑战性的任务。在这项工作中，我们提出了一个三阶段框架SwapText，用于跨场景图像传输文本。首先，提出了一种新颖的文本交换网络来仅替换前景图像中的文本标签。其次，背景完成网络来学习以重建背景图像。最后，通过融合网络将生成的前景图像和背景图像用于生成文字图像。使用提出的框架，即使出现严重的几何失真，我们也可以巧妙的处理输入图像的文本。定性和定量结果显示在几个场景文本数据集上，包括规则和不规则文本数据集。我们进行了广泛的实验以证明我们的方法的有效性，例如基于图像的文本翻译，文本图像合成等。

想象一下，能够在场景图像中交换文本，同时在几秒钟内保持原始字体，颜色，大小和背景纹理，而无需花费数小时进行图像编辑。在这项工作中，我们旨在通过自动替换场景图像中文本的算法来实现此目标。文本交换的核心挑战在于生成视觉逼真的文本并与原始文本保持一致的样式。

文本交换或文本替换在许多情况下都涉及到，包括文本检测，文本识别，海报中的文本转换和其他创造性应用。 对于文本检测和识别任务，文本交换是一种非常有用的数据增强方法。 见证了深度神经网络（DNN）在各种计算机视觉任务中的巨大成功，获得大量带注释的训练图像已成为训练DNN模型的瓶颈。最简单，使用最广泛的方法是通过几何变换来增加训练图像，例如平移，旋转和翻转等。近来，已经提出了基于图像合成的方法[11、7、39]来训练文本检测和识别模型。这些方法通过结合不同的渲染技术对光和能量的物理行为进行建模来从无文本图像中创建新图像。但是， 合成图像无法与场景中的图像完全融合，这在将合成图像应用于DNN模型训练时至关重要。

近年来，许多图像生成模型，例如生成对抗网络（GAN）[6]，可变自动编码器（VAE）[17]和自回归模型[25]，为现实的图像生成任务提供了强大的工具。在[9，38，33]中，GAN用于图像补全，可为缺失区域生成视觉上逼真的和语义上合理的像素。 [21，8，28，22]已经利用这些网络生成具有不同姿势或服装的新颖人物图像。

我们的贡献总结如下：

文本图像合成
图像合成已在计算机图形学研究中得到了广泛的研究[4]。文本图像合成被研究为一种数据增强方法，用于训练准确而健壮的DNN模型。例如，Jaderberg等[11]使用单词生成器来生成用于文本识别任务的合成单词图像。Gupta等 [7]开发了一个健壮的引擎来生成用于文本检测和识别任务的合成文本图像。文本图像合成的目标是将文本插入背景图像中语义上敏感的区域。许多因素都影响合成文本图像的真实相似度，例如文本大小，文本视角，环境光照等。在[39]中，Zhanet等人通过结合语义连贯，视觉注意力和自适应文本外观这三种设计来实现文本文本图像合成。尽管文本图像合成在视觉上是逼真的，但合成图像与真实图像之间仍存在许多差异。例如， 与真实图像相比，合成图像中文本字体和背景图像非常有限。

在最近，基于GAN的图像合成技术得到了进一步的探索。在[41]中，Zhan等人提出了一种将几何合成器和外观合成器组合在一起的空间融合GAN，以在几何和外观空间中实现合成现实。Yang等人[36]使用双向形状匹配框架通过可调整的参数来控制字形的关键风格。 GA-DAN [40]提出了一项有趣的工作，能够同时在几何空间和外观空间中对跨域移位进行建模。[2]中提出了MC-GAN来实现从A到Z的字母集的字体样式转换。 Wu等人 [34]提出了一个端到端的可训练样式保留网络来编辑自然图像中的文本。

图像生成
随着生成模型（例如GAN [6]，VAE [17]和自动回归模型[25]）的巨大成功，逼真而清晰的图像生成最近吸引了越来越多的关注。传统的生成模型使用GAN [6]或VAE [17]来将噪声z生成的分布映射到实际数据的分布。例如，GANs [6]用于生成真实面孔[37、3、15]和鸟类[29]。

为了控制所生成的结果，Mirzaet等人[23]提出了有条件的GAN。它们会生成在类别标签上进行分类的MNIST数字。在[12]中，karacanet等。根据语义布局和场景属性（例如日夜，晴天雾天）生成逼真的室外场景图像。 Lassneretal [19]基于细粒度的身体和衣服片段生成了穿着者的全身图像。完整模型可以以姿势，形状或颜色为条件。Ma[21，22]基于图像和姿势生成人图像。在[18]中提出了快速人脸交换，以将输入身份转换为目标身份，同时保留姿势，面部表情和光照。

图像完成
最近，基于GAN的方法已经成为图像完成的一种有希望的范例。 Iizuka等 [9]提议使用全局和局部判别器作为对抗性损失，在其中全局和本地一致性都得到了加强。Yu等人 [38]使用上下文注意力层来显式地参与远距离空间位置上的相关特征补丁。 Wang等 [33]使用多列网络以并行方式生成不同的图像分量，并采用隐式的多样化MRF正则化来增强局部细节。

给定场景文本图像Is，我们的目标是在保持原始样式的基础上基于内容图像Ic替换文本。如图2所示，我们的框架由文本交换网络，背景完成网络和融合网络组成。文本交换网络首先从Is中提取样式特征从Ic中提取内容特征，然后通过自注意网络合并这两个特征。为了更好地表示内容，我们使用内容形状转换网络（CSTN）根据样式图像Is的几何属性来转换内容图像Ic。背景完成网络用于重建样式图像Is的原始背景图像Ib。最后，文本交换网络和背景完成网络的输出被融合网络融合以生成最终的文本图像。

现实情况下的文本实例具有多种形状，例如，呈水平，定向或弯曲形式。文本交换网络的主要目的是在保留原始样式（尤其是文本形状）的同时替换样式图像Is的内容。为了提高不规则文本图像生成的性能，我们提出了一个内容形状转换网络（CSTN）将内容图像映射到样式图像的相同几何形状中，然后通过3个下采样卷积层和几个残差块对样式图像和转换后的内容图像进行编码。为了充分融合样式和内容特征，我们将它们馈入了一个自注意网络。对于解码，使用3个上采样反卷积层来生成前景图像If。

文本形状的定义对于内容形状的转换至关重要。受文本检测[20]和文本识别[35]领域中的文本形状定义的启发，可以使用2 K个基准点P = {p1，p2，...，p2K}定义文本的几何尺寸属性，如图3所示。

在对内容和样式图像进行编码之后，我们将两个特征图都馈送到自注意网络，该网络会自动学习内容特征图Fc和样式特征图Fs之间的对应关系。输出特征图是Fcs，图5（a）给出了自注意力的网络结构。

内容特征Fc和样式特征Fs首先沿其深度轴连接。然后，我们遵循[42]中类似的自注意力机制来生成输出特征图Fcs。

除了这种单级样式化之外，我们还开发了多级样式化管道，如图5（b）所示。我们将自注意力网络依次应用于多个特征图层，以生成更逼真的图像。

文本交换网络主要侧重于前景图像生成，而背景图像在最终图像生成中也起着重要作用。为了生成更逼真的文字图像，我们使用背景完成网络来重建背景图像，其结构如表1所示。大多数现有的图像完成方法都是通过借用或复制周围区域的纹理来填充图像的像素。一般的结构遵循编码器-解码器结构，我们在编码器之后使用膨胀卷积层来计算具有较大输入区域的输出像素。通过使用较低分辨率的膨胀卷积，模型可以有效地“看到”输入图像的较大区域。

在此阶段，将文本交换网络和背景完成网络的输出融合以生成完整的文本图像。如图2所示，融合网络遵循编码器-解码器结构。类似于[34]，我们在融合解码器的上采样阶段将背景完成网络的解码特征图连接到具有相同分辨率的相应特征图。我们使用Gfuse和Dfuse分别表示生成器和判别器网络。融合网络的损失函数可计算如下：

为了制作更逼真的图像，我们还遵循样式迁移网络[5，26]的类似思想，将VGG-loss引入融合模块。 VGG损失分为两部分，即知觉损失和风格损失，如下所示：

我们遵循[34]中的类似思想来生成具有相同样式的成对合成图像。我们使用超过1500个字体和10000个背景图像来生成总共100万个狮子训练图像和10000个测试图像。输入图像的大小调整为64×256，批处理大小为32。从权重为零的正态分布初始化所有权重，标准差为0.01。使用β1= 0.9和β2= 0.999的Adam优化器[16]来优化整个框架。在训练阶段将学习率设置为0.0001。我们在Ten-sorFlow框架[1]下实现我们的模型。我们的方法中的大多数模块都是GPU加速的。

我们在几个公共基准数据集上评估了我们提出的方法。

我们采用图像生成中常用的指标来评估我们的方法，其中包括：

在本节中，我们将通过经验研究不同的模型设置如何影响我们提出的框架的性能。我们的研究主要集中在以下方面：内容形状转换网络，自注意力网络和背景完成网络中的膨胀卷积。图6给出了一些定性结果。

自注意力网络
使用自注意力网络来充分结合内容特征和风格特征。根据表2，使用单层自注意力网络，平均l2误差减少约0.003，平均PSNR增加约0.3，平均SSIM增加约0.012。为了使用样式和内容特征的更多全局统计信息，我们采用了一个多层的自注意力网络来融合全局和局部模式。借助多级自我关注网络，所有的度量方法都得到了改进。

膨胀卷积
膨胀卷积层可以扩大像素区域以重建背景图像，因此更容易生成更高质量的图像。 根据表2，具有膨胀卷积层的背景完成网络在所有指标上均具有更好的性能。

为了评估我们提出的方法，我们将其与两种文本交换方法进行了比较：[10]中提出的pix2pix和Wuet等人[34]提出的SRNet。我们使用生成的数据集来训练和测试这两个模型。根据论文，两种方法都保持相同的配置。

定量结果
在表2中，我们给出了本方法和其他两种竞争方法的定量结果。显然，我们提出的方法在不同语言的所有指标上都有显著改进，平均l2误差减少了0.009以上，平均PSNR增加了0.9以上，平均SSIM增加了0.04以上。第二个最好的方法。

基于图像的翻译是任意文本样式传输的最重要应用之一。在本节中，我们提供一些基于图像的翻译示例，如图7所示。我们在英语和中文之间进行翻译。从结果可以看出，无论目标语言是中文还是英文，都可以很好地保持颜色，几何变形和背景纹理，并且字符的结构与输入文本相同。

在图9中，我们还展示了在场景文本数据集上评估的模型的一些示例结果。根据图9， 我们的模型可以替换输入图像中的文本，同时保留原始字体，颜色，大小和背景纹理。

我们的方法有以下局限性。由于训练数据量有限，因此无法充分利用几何属性空间和字体空间。当样式图像中的文本出现波动时，我们提出的方法将失败，请参见图8（顶部）。图8（底部）显示了使用WordArt中的样式图像的失败案例。

在这项研究中，我们提出了一种健壮的场景文本交换框架SwapText，以解决用预期的文本替换场景文本图像中的文本的新任务。我们采用分而治之的策略，将问题分解为三个子网络，即文本交换网络，背景完成网络和融合网络。在文本交换网络中，内容图像和样式图像的特征被同时提取，然后通过自注意网络进行组合。为了更好地学习内容图像的表示，我们使用内容形状转换网络（CSTN）根据样式图像的几何属性对内容图像进行转换。然后，使用背景完成网络来生成内容图像的背景图像样式图片。最后，将文本交换网络和背景完成网络的输出馈送到融合网络中，以生成更真实和语义一致的图像。在几个公共场景文本数据集上的定性和定量结果证明了我们方法的优越性。在未来的工作中，我们将探索基于字体和颜色生成更多可控制的文本图像。

上一篇：GNN in CVPR2020？

下一篇："论文"用英语怎么说？