编译 | Mr Bear
编辑 | 陈彩娴
近年来,基于自注意力机制的 Transformer 模型在自然语言处理、计算机视觉、强化学习等领域的学术研究中取得了巨大进展。例如,在自然语言处理领域,Transformer 已经成为了现代深度学习技术体系中不可或缺的重要组件。
然而,由于自注意力机制本身的计算复杂度与存储复杂度较高,想要将其应用于真实的生产环境还需要进一步提升模型的效率。
最近,研究人员在原始 Transformer 架构的基础上进行改进,提出了各种各样的「X-former」模型(例如,Reformer、Linformer、Performer、Longformer 等等)。其中,许多模型围绕计算效率和存储效率进行了改进。
为了帮助对这一领域感兴趣的研究者在繁多的模型中梳理出一条脉络,谷歌研究院撰写了最新高效 Transformer 模型研究综述,介绍了近年来该领域的最新进展。
链接:
1 研究背景
Transformer 是现代深度学习技术体系中的一股强大的力量。Transformer 的应用十分广泛,它在语言理解、图像处理等诸多领域中都产生了巨大的影响。因此,在过去的几年中,自然而然地有大量的研究工作致力于对该模型进行基础性的改进。这种广泛的研究兴趣也催生了对更加高效的 Transformer 模型变体的研究。
最近出现了浩如烟海的新提出的 Transformer 模型变体,研究者和从业者们都会发现很难跟上该领域创新的步伐。仅在 2020 年 2 月-8 月的时间里,人们就提出了近 12 种新的高效 Transformer 模型。
图 1:标准 Transformer 的架构示意图
自注意力机制是 Transformer 模型的一个关键特性。这种机制可以被看做是一种类似于图的归纳偏置,它通过一种基于相关性的池化操作将序列中所有的token联系起来。众所周知,自注意机制存在平方阶的时间与存储复杂度,这在许多情况下都阻碍了模型的可扩展性。近期,为了解决该问题,出现了各种各样的模型变体。在下文中,我们将这类模型称为「高效 Transformer」。
在不同的语境下,我们可以对模型的效率有不同的理解。「效率」可能指的是模型的内存占用,在运行模型的加速器(如 GPU)的内存时,考虑内存占用是十分重要的。「效率」还可能指的是计算开销(例如,训练和推理阶段的 FLOP——每秒浮点数运算数)。具体而言,对于机载应用来说,我们期望模型可以使用有限的计算资源预算的情况下运行。在本文中,当我们提到 Transformer 的「效率」时,同时指的是它们被用于对大型输入进行建模时的存储和计算效率。
在对长序列进行建模的应用中,高效的自注意力模型至关重要。例如,文档、图像、视频往往都是由数量较大的像素或词例组成的。因此,处理长序列的效率对于 Transformer 的广泛应用十分重要。
本文旨在提供一种对这类模型最新进展的全面概述。我们主要关注的是通过解决自注意力机制的「平方阶复杂度」问题来提升 Transformer 模型效率方面的建模进展与架构创新,本文还简要讨论了一般的改进以及其它的效率提升。
2 高效Transformer模型综述
首先,我们将展示不同模型的特质。表 1 列举出了截至 2020 年 8 月发表的一些高效 Transformer 模型,图 2 则展示了一些关键的 Transformer 模型的图形化概览。
表 1:按照首次公开发表时间的先后顺序列举出的高效 Transormer 模型。标题后带有 † 的论文经过了同行评审。其中,Class 列中的缩写分别代表:(1)FP,固定模式或固定模式的组合(2)M:记忆(3)LP:可学习的模式(4)LR:低秩(5)KR:核方法(6)RC:递归。此外,n 一般代表序列长度,b 则为局部窗口(或模块)的尺寸。n 后的下表 g 代表全局记忆长度,n_c 代表卷积压缩后的序列长度。
图 2:高效 Transformer 架构的分类
除了那些基于片段递归的方法之外,大多数模型都旨在队具有平方阶开销的注意力矩阵进行近似。每种方法都将一些稀疏性的概念应用到了一些稠密注意力机制上。
1、固定模式
最早修改自注意力的方式是直接通过将感受野限制到固定长度对注意力矩阵进行了稀疏化处理,预先定义了一些诸如「局部窗口」、「固定步长的模块模式」的模式。
1)Blockwise Pattern:
这类技术最简单的实践示例是模块化范式(又称「分块范式」),它通过将输入序列分块为一些固定的模块,考虑局部感受野模块。采用了此类做法的模型包括:Qiu 等人于 2019 年发表的「Blockwise Attention」,以及 Parmar 等人于 2018 年发表的「Local Attention」。对输入序列进行分类将复杂度从 N^2 降低到了 B^2(模块尺寸),其中 B 远小于 N,从而显著降低了开销。这些模块化的方法成为了许多更加复杂的模型的基础。
2)Stided Pattern:
考虑间隔一定步长的注意力机制(例如,仅仅在固定的间隔上应用注意力)。例如,由 Child 等人于 2019 年提出的「Sparse Transformer」和 Beltagy 等人于 2020 年提出的「Longformer」采用了「步长化」(或称「空洞化」)的窗口。
3)Compressed Pattern:
使用一些池化操作,将序列长度下采样为某种固定模式。例如,Liu 等人于 2018 发表的「Compressed Attention」使用了步长化的卷积,有效地降低了序列长度。
2、模式组合
组合式方法的核心思想是,通过将两种或多种不同的访问模式提升覆盖率。
例如,Sparse Transformer 通过将其一半的注意力头应用到模式上组合了步长化注意力机制和局部注意力机制。类似地,Ho 等人于 2019 年提出的「Axial Transformer」在给定一个输入的高维张量的情况下应用了一系列的自注意力计算,每一种计算都沿着输入张量的某个轴进行。
从本质上说,模式组合降低存储复杂度的方式与固定模式相同。然而,其不同之处在于,对于多种模式的聚合和组合提高了自注意力机制整体的覆盖率。
3、可学习的模式
这是对于固定、预定义模式的扩展。使用可学习模式的模型旨在以一种数据驱动的方式学习访问模式。可学习模式的关键特质在于,它需要确定词例相关性的概念,然后将词例划分到不同的聚类中。
值得注意的是,Kitaev 等人于 2020 年提出的 「Reformer」 引入了一种基于哈希的相似度度量方法,从而高效地对词例进行聚类。类似地,Roy 等人于 2020 年提出的「Routing Transformer」对词例采用了在线的 K-均值聚类。同时,Tay 等人于 2020 年提出的「Sinkhorn Sorting Network」通过学着对输入序列的块进行排序,揭示了注意力权重的稀疏性。
在左右这些模型中,相似度函数都是与网络中的其余部分端到端地联合训练你的。可学习模式的核心思想仍然是利用固定模式(分块模式)。然而,这类方法会学着对输入词例进行排序/分类——在保持固定模式方法的效率优势的同时,使我们可以对序列有更优的全局视角。
1)记忆:利用一个附属的记忆模块,它可以一次访问多个词例。
全局记忆是该模块的一种常见形式,它可以访问整个序列。全局词例可以作为一种记忆的形式,它学着从输入序列词例中整合信息。Lee 等人于 2019 年发表的「Set Transformer」首次引入了「inducing point」方法。这些参数通常被看做「记忆」,并且被用来作为进一步处理的临时上下文。Sukhbaatar 与 2019 年指出,这可以被认为是一种参数注意力机制。Ainslie 等人于 2020 年提出的 ETC 方法与 Beltagy 等人于 2020 年提出的 Longformer 也都使用了全局记忆。在有限的记忆中,我们可以对输入序列执行一种类似于池化的初始操作,从而压缩输入序列,这是一种在设计高效的自注意力模块时用到的巧妙的技巧。
2)低秩方法:通过利用自注意力矩阵的低秩近似提升效率。其核心思想在于假设 N × N 的矩阵中存在低秩结构。Wang 等人于 2020 年提出的「Linformer」是此类技术的经典示例,它将键和值的长度维度投影到了一个低维的表征上(N → k)。很容易看出,由于 N × N 的矩阵被分解为 N × k 的矩阵,自注意力的复杂度问题得到了缓解。
4、核方法
通过核化(Kernelization)看待注意力机制,从而提升 Transformer 的效率。
Katharopoulos 等人和 Choromanski 等人都于 2020 年运用核方法,十分巧妙地数学上重写了注意力机制,从而避免计算 N × N 矩阵。Choromanski 等人认为,由于核是对注意力矩阵的一种近似方法,它们也可以被看做一种低秩方法。
5、递归
通过递归的方法将模块连接起来是对于模块化方法的一种自然延伸。
Transformer-XL提出了以一种片段级的递归机制,它将多个片段和模块连接了起来。从某种程度上来说,这种模型也可以被看做固定模式模型。然而,由于它使用了与其它模块/局部方法不同的递归机制,本文将其另做一类看待。
我们注意到,聚类构建「bucket」是不同高效 Transformer 模型的广泛特征。实际上,在这些聚类簇之间并没有明显的界限,模型可能由多种不同的技术创新组合而成。例如,Roy 等人于 2020 年提出的「Routing Transformer」中的 K 均值聚类也可以被看做一种全局记忆方法,这是由于我们可以将聚类中心看做参数化的记忆。然而,在「Reformer」中,它被用于学习注意力权值的系数模式。此外,池化也可以被解释为一种记忆模型。
3 观点
3.1 模型对比的难度
尽管该领域有很多新型的 Transformer 模型,但是我们很难找到一种简单的方式对这些模型一同进行对比。
为了展现新提出的模型的能力,许多研究论文都自行选取了一些对比基准。这同时也意味着他们会选取不同的超参数设置(例如,模型的大小)和设置,使得我们很难归结出模型性能提升的原因。
此外,一些论文也融入了预训练,这使得我们更难区分这些模型的相对性能。因此,应该使用哪种基本的高效 Transformer 模块,仍然是一个未解之谜。
一方面,有许多模型都关注生成式建模,在序列的自回归建模任务上展现出他们提出的 Transformer 单元的能力。
为了实现这一点,Child 等人于 2019 年提出的「Sparse Transformer」,Correia 等人于 2019 年提出的「Adaptive Transformer」、Roy 等人于 2020 年提出的「Routing Transformer」,以及 Kitaev 等人于 2020 年提出的「Reformer」都主要关注生成式建模任务。
这些对比基准往往都涉及 wikitext、enwik8 等数据集上的语言建模和/或 ImageNet、CIFAR 等数据集上的像素级图像生成。使用基于片段的递归的模型(例如,Transformer-XL 和 Compressive Transformer)也关注长距离语言建模任务(如 PG-19)。
一方面,这些模型重点关注只需要编码过程的任务(例如,问答系统、阅读理解、或从 GLUE 对比基准中选取的任务)。例如,Ainslie 等人于 2020 年提出的 ETC 模型仅仅在 NaturalQuestion 或 TriviaQA 等问答系统对比基准上进行了实验。
另一方面,Wang 等人于 2020 年提出的「Linformer」重点关注 GLUE 对比基准中任务的子集。这种划分是十分自然且直观的,因为类似于 ETC 和 Linformer 这样的模型并不能以一种自回归的方式被使用(即无法被用于解码)。这增加了将这些只需要编码过程的任务与其它模型进行对比的难度。
也有一些模型会关注如何平衡上述两类情况。Beltagy 等人于 2020 年提出的「Longformer」试图通过同时在生成式模型和只需要编码的任务上进行对比基准测试来平衡二者。Tay 等人于 2020 年提出的「Sinkhorn Transformer」同时比较了生成式建模任务与只需要编码的任务。
此外,还需要注意的是,尽管「序列到序列」的机器翻译(MT)曾经推广了 Transformer 模型,但是并没有太多通过 MT 任务评价的高效 Transformer 模型。这可能是因为,MT 任务中的序列长度并不够长,不能保证需要使用这些模型。
尽管生成式建模、GLUE 任务和/或问答任务似乎是许多此类任务所采用的常见评价对比基准,但也有一小部分论文会选择使用一些其它的基准。首先,Choromanski 等人于 2020 年发表的「Performer」模型在蛋白质上的带掩模的语言建模任务上进行评价,这与其它的高效 Transformer 模型形成了鲜明的对比。而 Katharopoulos 等人于 2020 年提出的「Linear Transformer」也是在语音识别任务上进行评价,这也是一种在这类论文中鲜被提及的对比基准。
3.2 模型设计的趋势
当我们将这种上述分类方法与提出这些模型的时间线匹配起来时,我们就可以看出研究社区在设计高效 Transformer 模型方面的趋势。
该领域内早期的工作主要是更加直观且简单的方法(例如,固定模式)。为此,该领域内大多数早期的工作似乎都是以模块模式/局部模式为基础的。例如,Parmar 等人于 2018 年提出的「Image transformer」、Liu 等人于 2018 年提出的「Compressed Attention」、Qiu 等人于 2019 年提出的「Blockwise Transformer」或 Child 等人于 2019 年提出的「Sparse Transformer」中的局部窗口。
Child 等人(Sparse Transformer)和 Ho 等人(Axial Transformer)于 2019 年首次提出了分解各种固定模式的范式。与此同时,我们也从 Lee 等人于 2019 年提出的「Set Transformer」中的归纳点(inducing point)和 Guo 等人于 2019 年提出的「Star Transformer」中的全局节点上发现了对基于记忆的方法的早期尝试。
我们发现,下一波模型发展浪潮应该是可学习的稀疏模式。Kitaev 等人于 2020 年提出的「Reformer」和 Roy 等人于 2020 年提出的「Routing Transformer」在这个方面是非常相似的,它们都学着在执行注意力操作之前对词例进行聚类。它们关键的差别在于实现这一目标的方式:Reformer 使用了一种哈希函数,而 Routing Transformer 则使用了在线的 K-均值 进行聚类对齐。同时,Tay 等人于 2020 年发表的「Sinkhorn Transformer」是基于模块级排序的思想研发而来。
接着,我们还观察到,有许多扩展模型在很大程度上以「Sparse Transformer」为基础。Ainslie 等人于 2020 年提出的「ETC」模型和 Beltagy 等人于 2020 年提出的「Longformer」模型具有非常相似的思想,他们本质上都是「Sparse Transformer」的扩展。这些模型引入了全局记忆的概念,令人回想起「Set Transformer」中的归纳点(inducing point)方法或「Star Transformer」中的全局记忆。Longformer 的工作中也提出了一些对步长的改进(例如,使用空洞窗口)。
在最近的模型发展浪潮中,我们发现基于低秩近似或核方法的模型一直涌现了出来。例如,Wang 等人于 2020 年提出的「Linformer」、Choromanski 等人于 2020 年提出的「Performer」、Katharopoulos 等人于 2020 年提出的「Linear Transformer」。由于评估的现状和高度并行的研究工作正在进行,我们还尚不明确这种低秩或核范式是否真正比可学习模式(LP)或基于记忆的高效 Transformer 模型更好。
另一方面,值得注意的是,基于递归的各种模型(Transformer-XL 和 Compressive Transformer)的操作似乎是正交的,与其它模型相比,它们的关联程度较低。
3.3 其他正交的高效 Transformer 工作
本文重点关注自注意力模块的计算和存储复杂度,我们简要地总结了一些正交的工作,它们可能也对模型的效率、可扩展性以及 Transformer 模型整体的可用性有益。
权值共享:共享 Transformer 模型的参数有助于减小整体模型的大小。Dehghani 等人于 2018 年提出的「Universal Transformer」将注意力与转换(transition)权值联系在一起。类似地,Lan 等人于 2019 年提出的「Albert」也在各个层之间进行了相同的参数共享。另一方面,受汉密尔顿积的启发(在线性变换层中局部共享组件),Tay 等人于 2019 年提出的「Quaternion Transformer」提出了一种权值共享机制。
量化/混合精度:学习混合精度模型具有改进存储开销的潜力。Shen 等人于 2020 年提出的 Q-BERT 模型对 Transformer 模型进行超低精度量化。同时,Ott 等人于 2019 年提出的混合精度训练是一种非常流行的技术,它降低了训练 Transformer 的存储开销。Fan 等人于 2020 年将具有量化能力的训练应用于 Transformer 模型上。
知识蒸馏:知识蒸馏(KD)已经成为了将通过较大的「教师网络」学习到的知识迁移到较小的「学生网络」上的一种实用方法。由此,较小的模型可以被高效地部署于生产环节中。目前,研究人员关于针对大型 Transformer 模型应用知识蒸馏进行了大量尝试。例如,Sanh 等人于 2019 年提出的「DistilBERT」、Tang 等人于 2019 年提出的针对特定任务的蒸馏方法,以及 Jiao 等人于 2019 年提出的「TinyBERT」。
神经网络架构搜索(NAS):寻找更高效的 Transformer 架构也是一种常用的策略。Guo 等人于 2019 年提出了「Neural Architecture Transformer」(NAT),它使用了 NAS 技术,通过消除冗余操作,搜索更加紧凑高效的 Transformer。Wang 等人于 2020 年提出了针对不同硬件的 Transformer(HAT),这是一种利用了 NAS 技术并将硬件的效率反馈作为奖励信号的方法。
任务适配器:这类研究工作主要关注在 T 个任务上对大型 Transformer 进行调优的问题。这里的主要思想是,任务适配器使我们可以在不同的任务间复用参数,并且在实际生产中复用服务 T 个模型的需求,这可以减少整体的参数。近年来,研究人员们提出了包括 PALS、MAD-X、HyperGrid 在内的一系列此类模型。
[赠书福利]
AI科技评论本次联合【博文视点】为大家带来15本“《labuladong 的算法小抄》”正版新书。
在1月1日头条文章《我多篇顶会论文在手,面试AI算法岗时竟然还要刷算法题? | 元旦送书福利》留言区畅所欲言,谈一谈你刷算法的故事,或你对2020的总结或者是对2021年的规划和心愿,甚至可以是新的一年对AI科技评论的建议和期待,有哪些喜欢看的报道,还希望看到什么样的报道?
AI 科技评论将会在留言区选出 15名读者,每人送出《labuladong 的算法小抄》一本。
活动规则:
1. 在1月1日头条文章(注意不是本文!)下面留言,留言点赞最高的前 15 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。
2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。
3. 本活动时间为2021年1月1日 - 2020年1月7日(23:00),活动推送内仅允许中奖一次。