线性注意力序列并行(LASP)




一种针对基于线性注意力的语言模型量身定制的高效机器学习方法


快速阅读: https://marktechpost.com/2024/04/07/linear-attention-sequence-parallel-lasp-an-efficient-machine-learning-method-tailored-to-linear-attention-based-language-models/ 


上海人工智能实验室和 TapTap 的研究人员提出了线性注意序列并行 (LASP) 技术,该技术优化了线性 Transformer 上的序列并行性。它采用点对点 (P2P) 通信在节点内或节点间的 GPU 之间进行有效的状态交换。 LASP 最大限度地利用了线性注意力中的右积核技巧。重要的是,它不依赖于注意力头分区,使其适用于多头、多查询和分组查询注意力。


LASP 采用平铺方法将输入序列划分为分布在 GPU 上的子序列块。它将注意力计算区分为块内和块间,以利用线性注意力的右积优势。块内使用传统的注意力计算,而块间则利用内核技巧。该方法还包括数据分布、前向传递和后向传递机制,以提高并行处理效率。


Paper: https://arxiv.org/abs/2404.02882

论文: https://arxiv.org/abs/2404.02882 

GitHub:https://github.com/OpenNLPLab/LASP


视频:https://youtu.be/8IsJxSzg_NI

留言