人工智能：多头自注意力（Multi-Head Attention）机制

Post author: Hai-Wei Chai (柴海伟)
Post link: <a href="https://hwchai.com/AI-Multi-head/" title="人工智能：多头自注意力（Multi-Head Attention）机制">https://hwchai.com/AI-Multi-head/
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/" rel="noopener" target="_blank"> BY-NC-SA unless stating additionally.

Posted on 2024-10-23 Edited on 2024-10-23 In Artificial Intelligence Waline:

Self Attention 利用 Q、K、V均为同一个输入向量映射而来的Encoder-Decoder Attention，它可以无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。

Multi-Head Attention同时计算多个Attention，并最终得到合并结果，通过计算多次来捕获不同子空间上的相关信息。

Reference Link: