线性注意力序列并行（LASP）

一种针对基于线性注意力的语言模型量身定制的高效机器学习方法

快速阅读： https://marktechpost.com/2024/04/07/linear-attention-sequence-parallel-lasp-an-efficient-machine-learning-method-tailored-to-linear-attention-based-language-models/

上海人工智能实验室和 TapTap 的研究人员提出了线性注意序列并行 (LASP) 技术，该技术优化了线性 Transformer 上的序列并行性。它采用点对点 (P2P) 通信在节点内或节点间的 GPU 之间进行有效的状态交换。 LASP 最大限度地利用了线性注意力中的右积核技巧。重要的是，它不依赖于注意力头分区，使其适用于多头、多查询和分组查询注意力。

LASP 采用平铺方法将输入序列划分为分布在 GPU 上的子序列块。它将注意力计算区分为块内和块间，以利用线性注意力的右积优势。块内使用传统的注意力计算，而块间则利用内核技巧。该方法还包括数据分布、前向传递和后向传递机制，以提高并行处理效率。

Paper: https://arxiv.org/abs/2404.02882

论文： https://arxiv.org/abs/2404.02882

GitHub：https://github.com/OpenNLPLab/LASP

视频：https://youtu.be/8IsJxSzg_NI