深度学习attention机制中的Q,K,V分别是从哪来的？

找了各种资料，也读了论文原文，都是详细介绍了怎么把Q,K,V通过什么样的运算得到输出结果，始终没有一个地方有解释Q,K,V是从哪来的？一个layer的输入不就是一个tensor吗，为什么会有Q,K,V这三个tensor？

我自己用了一个比较通俗的思维去理解这个QKV，但是不一定对，仅供参考
假设你有一个词库，这里面有100个词，现在有两个词，他们的词向量是A和B
现在你有一个训练任务，假设是翻译，那么attention机制就是将词向量根据你的训练任务细分成了三个属性，即QKV，这3个属性变换需要的矩阵都是训练得到的。
Q(query)可以理解为词向量A在当前训练语料下的注意力权重，它保存了剩下99个词与A之间的关系。
K(key)是权重索引，通过用别的词(比如B)的注意力索引K(key)与A的注意力权重(Query)相乘，就可以得到B对A的注意力加权

V(value)可以理解为在当前训练语料下的词向量，是在原有词向量的基础上，利用当前训练语料进行强化训练后得到的词向量
这样一来通过QK就可以计算出一句话中所有词对A的注意力加权，然后将这个注意力加权与各自对应的新词向量(value)相乘，就可以得到这句话中所有词对A词的注意力加权词向量集，接下来我们就可以通过这个向量集作为输入，预测A的翻译结果。

Transformer用到了两个attention模块：一个模块被用于encoder，一个模块位于decoder。
encoder中的attention叫做self-attention，此时QKV分别为这个模块的输入（第一层为词嵌入，第二层及以后为上一次层的输出）分别乘上三个矩阵得到的结果分别为QKV，这三个矩阵是在训练的时候学习。
decoder中的attention叫做encoder-decoder attention，这个attention的KV来自encoder的最后一层输出，继续乘以不同的矩阵。至于Q就是decoder上一层的输出乘以一个矩阵。

SDPA 的数据流图表示和矩阵形式的计算示例
MHA 的矩阵形式计算示例
我在手机上，公式复制完全都不显示了。具体内容，看看我这篇文章是否能帮助到，后面画了一堆瓶瓶罐罐那部分
https://zhuanlan.zhihu.com/p/353423931?
zhuanlan.zhihu.com
以encoder为例：

Q，K，V是什么？
query,key,value。
Q，K，V的来源？
Q，K，V来源于input的embedding。
Q，K，V的生成方式？
embedding通过三个不同的线性层生成Q，K，V。
Q，K，V的意义？
Q，K，V表示的意义都是相同的，通过与学习到的参数矩阵相乘，可以说生成了不同的表达方式。
为什么可以这么生成？
大抵是神经网路的哲学。而且我记得，在self-attention之前的attention score function中就有类似通过线性层计算score的方法。（general?

我觉得你可能想要Q K V的基本概念性含义，可以看看我写的这个理解：
viper：transfomer里面self-attention的Q, K, V的含义?
zhuanlan.zhihu.com
Self-attention 是 Attention 里面的一种目前比较流行的 Attention，但也是 Attention 框架下的一种特殊情况。
所以要了解 Q，K，V，肯定要从还不 ALL YOU NEED 之前的世界观来理解，比如
Neural Machine Translation by Jointly Learning to Align and Translate?
arxiv.org
QKV 不同的情况来理解

三个神经网路，对同一输入进行三次不同变换，生成了Q，K，V

我说是你自己定义的，爱怎么定义怎么定义你肯定不信我。不过事实就是这样的

通俗点说，我们要做一个任务，现在有一组不同的&对，我们需要输入一个Query，来计算得到最终的Value值。
Attention机制中的Q,K,V即是，我们对当前的Query和所有的Key计算相似度，以这个相似度为基准通过Softmax层进行归一化得到一组权重，根据这组权重与对应Value的乘积求和得到Attention下的Value值。

和这个图表现出的一样。QKV这种可以算作Attention机制中最基本的思想。

看一眼代码不就秒懂么。都是一个东西啊，就是输入的embedding啊。

推荐阅读：

深度学习attention机制中的Q,K,V分别是从哪来的？

热门新闻

周热门

深度学习attention机制中的Q,K,V分别是从哪来的？

为什么softmax很少会出现[0.5，0.5]？

用mAP衡量目标检测的性能是否科学？

本人硕一小白，最近找课题，想问问深度学习GAN这个方向有哪些具有实际应用价值还好发文章的课题?

在深度学习领域，预训练有一定作用的本质原因是什么？

如何评价 CVPR 2020的论文接收结果？有哪些亮点论文？

深度学习，手写数字识别和语义分割肺结节哪个好上手？

人工智慧领域里的Interpretability和Explainability有什么区别吗？

如何看待 2020 年 3 月 28 日华为开源的深度学习框架 MindSpore？

为什么batch_size 增大会增加每一步的运算时间？

深度学习如何解决低信噪比下的检测识别问题？

在2019年，使用AMD显卡是否相当于告别深度学习，未来CUDA在机器学习领域的垄断有可能被打破吗？

ACL 2019将会有哪些值得关注的论文？

nlp的word2vec中如何把英文片语向量化？

学计算机视觉好找工作吗？

靠OpenCV吃饭的图像演算法工程师在深度学习的冲击下冲击下还有活路吗？ 泻药，「靠OpenCV吃饭的图像演算法工程师在深度学习的冲击下冲击下还有活路吗？」

热门新闻

周热门

靠OpenCV吃饭的图像演算法工程师在深度学习的冲击下冲击下还有活路吗？泻药，「靠OpenCV吃饭的图像演算法工程师在深度学习的冲击下冲击下还有活路吗？」