Transformer是一种基于 自留意力(Self-Attention)机制 的深度学习模型,最后由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它 齐全基于留意力机制 构建, 摒弃了传统的循环和卷积结构 ,用于处置人造言语处置畛域的义务,如机器翻译、文本生成等。
Transformer
一、Transformer的实质
什么是Transformer? Transformer模型是一种弱小的深度学习架构,它应用 自留意力机制和多头留意力 来捕捉序列外部的依赖相关,并经过位置编码来引上天位消息。
Transformer的实质是什么?Transformer的实质是一个 基于自留意力机制的编码器-解码器架构 ,它能够有效地处置序列到序列的义务,并捕捉输入序列中的长距离依赖相关。 Transformer左边是N个编码器,左边是N个解码器,其中N为6。
二、Transformer的架构
Transformer的架构是什么?Transformer遵照编码器-解码器总体架构,经常使用重叠的自留意力机制和全衔接层,区分用于编码器和解码器,如图中的左半局部和右半局部所示。
自留意力(Self- Attention)机制是什么?自留意力机制用于计算输入序列中各个元素之间的相关性,并据此降级每个元素的示意。与传统的留意力机制不同,自留意力机制不须要外部消息或额外的查问(Query)来疏导留意力的调配,而是仅依赖于输入序列自身。
在自留意力机制中, 输入序列首先被转换为三个不同的示意:查问(Query)、键(Key)和值(Value) 。这些示意理论是经过将输入序列与相应的权重矩阵相乘获取的。而后,计算查问与每个键之间的点积,获取留意力分数,这些分数反映了查问与每个键之间的相关性。
Transformer留意力机制有哪些? Transformer模型中留意力机制有三个重要用途。Encoder中的Self-Attention 用于捕捉输入序列外部各元素之间的相关 用于生成指标序列时思考已生成的局部 用于将输入序列的消息融入到指标序列的生成环节中
Transformer的**组件有哪些 Transformer模型蕴含输入嵌入、位置编码、多头留意力、残差衔接和层归一化、带掩码的多头留意力以及前馈网络等组件。
原文链接: