谷歌 Aggregating Nested Transformers:精度更好、数据效率更高,收敛性更快

整理:CV君

不定时更新,transformer 在 CV 领域相关技术论文:https://zhuanlan.zhihu.com/p/347694943

#Transformer#

Aggregating Nested Transformers

Hierarchical structures 在近期的 vision transformers 中大受欢迎,但使其性能良好需要复杂的设计和大量的数据集。

Aggregating Nested Transformers:精度更好、数据效率更高

本次工作,作者就对在不重叠的图像块上嵌套基本的局部 transformers 并以分层的方式聚合的想法进行了探讨。发现 block aggregation function 在实现跨区块的非局部信息交流方面起着关键作用。

作者基于此观察,将分层嵌套的 transformers 与所提出的 block aggregation function 整合在一起,与现有的复杂(local)自注意力方法相比,结构大大简化,数据效率大大提高。NesT 收敛得更快,并且需要更少的训练数据来实现良好的泛化,实现了卓越的 ImageNet 分类精度。

Aggregating Nested Transformers:精度更好、数据效率更高

例如,用 38M/68M 的参数训练 NesT,在 224×224 的图像尺寸上达到了 83.3%/83.8% 的ImageNet 准确率,超过了以前的方法,参数减少达 57%。而 NesT 有利的数据效率体现在它的快速收敛上,如在 30/100 个总历时的训练中达到 75.9%/82.3%。

此外,与流行的 convennets 相比,NesT 在小数据基准上实现了匹配的准确性。例如,使用单个 GPU 训练一个具有 6M 参数的 NesT,在 CIFAR10 上实现了 96% 的准确性,这与之前基于 ViT 的方法相比是最理想的。

Aggregating Nested Transformers:精度更好、数据效率更高
Aggregating Nested Transformers:精度更好、数据效率更高

除了分类之外,作者表示,通过适当的区块分解,NesT 可以被重新作为一个强大的解码器,实现比 convennets 更好的性能,同时速度快 8 倍,并在 64×64 的 ImageNet 生成中得到证明,这也是采用 transformers 进行高效生成建模的关键里程碑。

Aggregating Nested Transformers:精度更好、数据效率更高

另外提出一种新的方法,通过遍历其树状结构来解释 NesT 的推理过程,提供一种独特的视觉可解释性,以解释聚集的局部 transformers 如何选择性地处理来自语义图像斑块的局部视觉线索。

作者 | Zizhao Zhang, Han Zhang, Long Zhao, Ting Chen, Tomas Pfister

单位 | 谷歌;罗格斯大学

论文 | https://arxiv.org/abs/2105.12723

转载请注明:《谷歌 Aggregating Nested Transformers:精度更好、数据效率更高,收敛性更快