热点资讯
- 2022白菜网注册领取体验金 抒发起火! 英格兰主帅引争议: 暗讽曼联太子爷, 球迷力挺: 因伤休息怎样了
- 2022白菜网注册领取体验金 好意思国晓谕:对白俄罗斯总统的专机推论制裁……
- 2022白菜网注册领取体验金 汕尾市委常委、组织部部长邓涛招揽审查走访
- 白菜网送体验金网站大全 共享自学编程中不绝遭遇的问题和一些自学步伐
- 白菜注册白菜网大全 陈梦泄露所戴项链的其中精巧, 并谈东京和巴黎奥运会不同定位追求
- 白菜注册白菜网大全 一句“家长又有功课了”被踢群,家校群岂肯如此换取
- 白菜注册白菜网大全 共发现原土重心存眷变异株86例!中疾控发布宇宙新冠感染最新情况
- 白菜网送体验金网站大全 开往春天的广州红棉列车
- 白菜注册白菜网大全 底薪6500元超市责任引大学生列队背后的施行逻辑
- 白菜网送体验金网站大全 大家坦克强国排名榜:俄12566辆位居第一,中国为何只位列第四?
- 发布日期:2023-03-12 09:57 点击次数:186
白菜网送体验金网站大全 白菜网送体验金网站大全
视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经汇注 (ConvNet),成为开首进的图像分类模子。另一方面, ViT 模子在包括方针检测、语义分割等一系列筹办机视觉任务中存在好多挑战。因此,有究诘者提倡分层 Transformer(如 Swin Transformer),他们再行引入 ConvNet 先验,这么使得 Transformer 看成通用视觉骨干本色上可行,并在各式视觉任务上阐扬出不凡的性能。
但是,这种搀和方式的有用性在很猛进程上仍归功于 Transformer 的内在上风,而不是卷积固有的归纳偏置。在这项责任中,来自 FAIR 、UC 伯克利的究诘者再行检查了联想空间并测试了纯 ConvNet 所能达到的极限。究诘者冉冉将轨范 ResNet「升级(modernize」为视觉 Transformer 的联想,并在此流程中发现了导致性能相反的几个关键组件。

究诘者将这一系列纯 ConvNet 模子,定名为 ConvNeXt。ConvNeXt 完满由轨范 ConvNet 模块构建,在准确性和可膨胀性方面 ConvNeXt 取得了与 Transformer 具有竞争力的恶果,达到 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer,同期保合手轨范 ConvNet 的浅薄性和有用性。

值得一提的是,该论文一看成刘壮(Zhuang Liu),是大名鼎鼎 DenseNet 的共归拢作,凭借论文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最好论文奖。作家谢赛宁是ResNeXt的一作。
升级卷积神经汇注
该究诘梳理了从 ResNet 到近似于 Transformer 的卷积神经汇注的发展轨迹。该究诘凭据 FLOPs 筹商两种模子大小,一种是 ResNet-50 / Swin-T 机制,其 FLOPs 约为 4.5×10^9,另一种是 ResNet-200 / Swin-B 机制,其 FLOPs 约为 15.0×10^9。为浅薄起见,该究诘使用 ResNet-50 / Swin-T 复杂度模子展示履行恶果。
为了探究 Swin Transformer 的联想和轨范卷积神经汇注的浅薄性,该究诘从 ResNet-50 模子开拔,当先使用用于考研视觉 Transformer 的近似考研方式对其进行考研,与原始 ResNet-50 比较的恶果标明性能获取了很大的普及,并将校正后的恶果看成基线。
然后该究诘制定了一系列联想决策,回归为 1) 宏不雅联想,2) ResNeXt,3) 回转瓶颈,4) 卷积核大小,以及 5) 各式逐层微联想。下图 2 展示了「升级汇注」每一步的达成流程和恶果,统共模子都是在 ImageNet-1K 上进行考研和评估的。由于汇注复杂度和最终性能密切关系,因此该究诘在探索流程中和疏忽限度了 FLOPs。

考研方式
除了汇注架构的联想,考研流程也会影响最终性能。视觉 Transformer 不仅带来了一些新的架构联想决策和模块,并且还为视觉鸿沟引入了多种考研方式(举例 AdamW 优化器)。这主要与优化政策和关系的超参数建造研究。
因此,该究诘第一步使用视觉 Transformer 考研步调考研基线模子(ResNet50/200)。2021 年 Ross Wightman 等东说念主的论文《 An improved training procedure in timm 》展示了一组显赫提高 ResNet-50 模子性能的考研方式。而在本篇论文中,究诘者使用了一种近似于 DeiT 和 Swin Transformer 的考研方式。考研从 ResNet 原始的 90 个 epoch 膨胀到了 300 个 epoch。
该究诘使用了 AdamW 优化器、Mixup、Cutmix、RandAugment、立地擦除(Random Erasing)等数据增强时代,以及立地深度和标签平滑(Label Smoothing)等正则化有贪图。这种校正的考研有贪图将 ResNet-50 模子的性能从 76.1% 提高到了 78.8%(+2.7%),这意味着传统 ConvNet 和视觉 Transformer 之间很大一部分性能相反可能是考研手段导致的。
宏不雅联想
该究诘第二步分析了现时 Swin Transformer 的宏不雅汇注联想。Swin Transformer 使用近似于卷积神经汇注的多阶段联想,每个阶段具有不同的特征图分歧率。其中两个紧迫的联想考量是阶段筹办比和骨干架构。
一方面,ResNet 中跨阶段筹办分散的原始联想很猛进程上是受履行影响的。另一方面,Swin-T 免除一样的原则,但阶段筹办比略有不同。该究诘将每个阶段的块数从 ResNet-50 中的 (3, 4, 6, 3) 更始为 (3, 3, 9, s3),使得 FLOPs 与 Swin-T 对都。这将模子准确率从 78.8% 提高到了 79.4%。
通常白菜网送体验金网站大全,骨干架构要点护理汇注若何搞定输入图像。由于天然图像中固有的冗余性,普通架构在轨范 ConvNet 和视觉 Transformer 中积极地将输入图像下采样到稳当的特征图大小。轨范 ResNet 中包含一个步长为 2 的 7×7 卷积层和一个最大池,这让输入图像可进行 4 倍下采样。而视觉 Transformer 使用了「patchify」政策,Swin Transformer 天然使用近似的「patchify」层,但使用更小的 patch 大小来适合架构的多阶段联想。该究诘将 ResNet 骨干架构替换为使用 4×4、步长为 4 的卷积层达成的 patchify 层,准确率从 79.4% 普及为 79.5%。这标明 ResNet 的骨干架构不错用更浅薄的 patchify 层替代。
ResNeXt-ify
第三步该究诘尝试采纳 ResNeXt [82] 的念念路,ResNeXt 比普通的 ResNet 具有更好的 FLOPs / 准确率衡量。中枢组件是分组卷积,其中卷积滤波器被分红不同的组。ResNeXt 的交流原则是「使用更多的组,扩大宽度」。更准确地说,ResNeXt 对瓶颈块中的 3×3 卷积层采纳分组卷积。由于显赫裁汰了 FLOPs,因此这膨胀了汇注宽度以赔偿容量亏本。
该究诘使用分组卷积的一种特殊情况——深度卷积(depthwise convolution),其中组数即是通说念数。深度卷积已被 MobileNet [32] 和 Xception [9] 使用。究诘者扎眼到,深度卷积近似于自精通力中的加权乞降操作,在每个通说念的基础上进行操作,即仅在空间维度上搀和信息。深度卷积的使用有用地裁汰了汇注的 FLOPs。按照 ResNeXt 中提倡的政策,该究诘将汇注宽度加多到与 Swin-T 的通说念数一样(从 64 加多到 96)。跟着 FLOPs (5.3G) 的加多,汇注性能达到了 80.5%。
回转瓶颈
Transformer 中一个紧迫的联想是创建了回转瓶颈,即 MLP 块的瞒哄维度比输入维度宽四倍,如下图 4 所示。道理的是,Transformer 的这种联想与卷积神经汇注会使用的膨胀比为 4 的回转瓶颈联想研究联。

因此该究诘第四步探索了回转瓶颈的联想。如下图 3 所示,尽管深度卷积层的 FLOPs 加多了,但由于下采样残差块的 shortcut 1×1 卷积层的 FLOPs 显赫减少,通盘汇注的 FLOPs 减少到 4.6G。道理的是,这会让性能从 80.5% 略略提高至 80.6%。在 ResNet-200 / Swin-B 有贪图中,这一步带来了更多的性能普及——从 81.9% 普及到 82.6%,同期也减少了 FLOPs。

卷积核大小
成名后的刘涛一路走红,2022白菜网注册领取体验金资讯期间片约不断。但就在事业的发展期,刘涛选择了隐退娱乐圈,嫁给了富豪王珂。但谁知好日子并不久,王珂因为生意失败,欠下了5亿的债务。于是刘涛复出挣钱还债,她的复出之路也是一帆风顺,《欢乐颂》、《琅琊榜》等这些高口碑与高收视率的电视剧让她再次翻红。
第五步该究诘探索了大型卷积核的作用。视觉 Transformer 最显赫的特色是其非局部自精通力,每一层都具有全局感受野。天然已有卷积神经汇注使用了大卷积核,但黄金轨范(VGGNet [62] )是堆叠小卷积核(3×3)的卷积层。尽管 Swin Transformer 再即将局部窗口引入到自精通力块中,但窗口大小至少为 7×7,赫然大于 3×3 的 ResNe(X)t 卷积核大小。因此该究诘再行谛视了在卷积神经汇注会使用大卷积核的作用。
进取移动深度卷积层。要探索大卷积核,一个先决条目是进取移动深度卷积层的位置(如图 3(c) 所示)。近似地,Transformer 中也将 MSA 块舍弃在 MLP 层之前。由于还是建造一个回转瓶颈块,复杂、低效的模块(MSA、大卷积核)通说念变少,而高效、密集的 1×1 层将完成贫窭的责任。因此这个中间技艺将 FLOPs 减少到 4.1G,导致性能暂时下跌到 79.9%。
增大卷积核。经过上述准备责任,采纳更大的卷积核是具有显赫上风的。该究诘尝试了几种卷积核大小:3、5、7、9、11。汇注的性能从 79.9% (3×3) 提高为 80.6% (7×7),而汇注的 FLOPs 简陋保合手不变。
此外,究诘者不雅察到较大的卷积核的克己是在 7×7 处会达到弥散点,并在大容量模子中考据了这种举止。当卷积核大小跳动 7×7 时,ResNet-200 机制模子莫得阐扬出进一步的增益。因此该究诘在每个块中都使用了 7×7 深度卷积。
至此,宏不雅圭臬汇注架构的升级更始还是完成。
微不雅联想
下一步究诘者探究了一些微不雅圭臬上的架构相反——这里的大部分探索都是在层级完成的,要点是激活函数和归一化层的具体遴选。
用 GELU 替代 ReLU。跟着时刻的推移,究诘者还是斥地了许多激活函数,但 ReLU 由于其浅薄性和有用性,仍然在 ConvNet 中平方使用。ReLU 也被用作原始 Transformer 中的激活函数。GELU 不错被觉得是 ReLU 的更平滑变体,被用于开首进的 Transformer,包括 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。该究诘发现 ReLU 在 ConvNet 中也不错用 GELU 代替,准确率保合手不变(80.6%)。
更少的激活函数。Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数较少。如图 4 所示,该究诘从残差块中铲除了统共 GELU 层,除了在两个 1×1 层之间的 GELU 层,这是复制了 Transformer 块的作风。这个流程将恶果提高了 0.7% 到 81.3%,本色上与 Swin-T 性能相称。
更少的归一化层。Transformer 块通常也具有较少的归一化层。在这里,该究诘删除了两个 BatchNorm (BN) 层,在 conv 1 × 1 层之前只留住一个 BN 层。这进一步将性能普及至 81.4%,还是跳动了 Swin-T 的恶果。请扎眼,该究诘的每个块的归一化层比 Transformer 还要少,究诘东说念主员发当今块的着手添加一个非常的 BN 层并不行提高性能。
用 LN 代替 BN。BatchNorm(BN)是 ConvNet 中的紧迫构成部分,因为它提高了敛迹性并减少了过拟合。但是,BN 也有许多散乱有致的东西,可能会对模子的性能产生不利影响 。究诘者曾屡次尝试斥地替代有贪图,但 BN 仍然是大大宗视觉任务的首选方式。在原始 ResNet 中班师用 LN 代替 BN 性能欠佳。跟着汇注架构和考研时代的校正,该究诘再行谛视使用 LN 代替 BN 的影响,得出 ConvNet 模子在使用 LN 考研时莫得任何困难;本色上,性能会校正一些,获取了 81.5% 的准确率。
分离式(Separate)下采样层。在 ResNet 中,空间下采样是通过每个 stage 启动时的残差块来达成的,使用 stride =2 的 3×3 卷积。在 Swin Transformer 中,在各个 stage 之间添加了一个分离式下采样层。该究诘探索了一种近似的政策,在该政策中,究诘者使用 stride =2 的 2×2 卷积层进行空间下采样。令东说念主惊诧的是,这种调动会导致不同的考研恶果。进一步访问标明,在空间分歧率发生变化的场所添加归一化层有助于通晓考研。该究诘不错将准确率提高到 82.0%,大大跳动 Swin-T 的 81.3%。该究诘采纳分离式下采样层,得到了最终模子 ConvNeXt。ResNet、Swin 和 ConvNeXt 块结构的比较如图 4 所示。
ResNet-50、Swin-T 和 ConvNeXt-T 的翔实架构表率的比较如表 9 所示。

履行
ImageNet 履行评估
该究诘构建了不同的 ConvNeXt 变体,ConvNeXtT/S/B/L,与 Swin-T/S/B/L 具有相似的复杂性,可进行对标履行评估。此外,该究诘还构建了一个更大的 ConvNeXt-XL 来进一步测试 ConvNeXt 的可膨胀性。不同变体模子的区别在于通说念数、模块数,翔实信息如下:

Results ImageNet-1K:下表是 ConvNeXt 与 Transformer 变体 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的恶果比较。
由恶果可得:ConvNeXt 在准确率 - 筹办衡量以及推理综合量方面取得了与 ConvNet 基线(RegNet 和 EfficientNet )具有竞争力的恶果;ConvNeXt 的性能也全面优于具有近似复杂性的 Swin Transformer;与 Swin Transformers 比较,ConvNeXts 在莫得诸如移位窗口或相对位置偏置等专诚模块的情况下也具有更高的综合量。

ImageNet-22K:下表(表头参考上表)中展示了从 ImageNet-22K 预考研中微调的模子的恶果。这些履行很紧迫,因为东说念主们深广觉得视觉 Transformer 具有较少的归纳偏置,因此在大鸿沟预考研时不错比 ConvNet 阐扬更好。该究诘标明,在使用大型数据集进行预考研时,正确联想的 ConvNet 并不逊于视觉 Transformer——ConvNeXt 的性能仍然与近似大小的 Swin Transformer 相称或更好,综合量略高。此外,该究诘提倡的 ConvNeXt-XL 模子达成了 87.8% 的准确率——在 384^2 处比 ConvNeXt-L 有了相称大的校正,解释了 ConvNeXt 是可膨胀的架构。

Isotropic ConvNeXt 与 ViT 对比:在消融履行中,究诘者使用与 ViT-S/B/L (384/768/1024) 一样的特征尺寸构建 isotropic ConvNeXt-S/B/L。深度建造为 18/18/36 以匹配参数和 FLOP 的数目,块结构保合手不变(图 4)。ImageNet-1K 在 224^2 分歧率下的恶果如表 2 所示。恶果深远 ConvNeXt 的性能与 ViT 相称,这标明 ConvNeXt 块联想在用于非分层模子时仍具有竞争力。

卑鄙任务评估
在 COCO 上的方针检测和分割究诘:该究诘以 ConvNeXt 为骨干,在 COCO 数据集上微调 Mask R-CNN 和 Cascade Mask R-CNN 。表 3 比较了 Swin Transformer、ConvNeXt 和传统 ConvNet(如 ResNeXt)在方针检测和实例分割上的恶果。恶果标明在不同的模子复杂性中,ConvNeXt 的性能与 Swin Transformer 相称或更好。

基于 ADE20K 的语义分割:在表 4 中,该究诘讲明了具有多圭臬测试的考据 mIoU。ConvNeXt 模子不错在不同的模子容量上达成具有竞争力的性能,进一步考据了 ConvNeXt 联想的有用性。
