一种基于CK-means++的稀疏注意力机制方法
Abstract:
本发明提出了一种基于CK‑means++的稀疏注意力机制方法,运用于大语言模型训练时所需要针对稀疏注意力矩阵进行聚类的情况。本发明采用Canopy聚类和均值计方法对transformer注意力层的查询(Query)向量和键(Key)向量进行处理以确定聚类集群个数,根据集群个数采用轮盘法迭代计算确定各集群的初始中心点,然后依据聚类集群个数和各集群的初始中心点进行K‑means聚类收敛计算,最终求得与各查询(Query)向量相似度高的键(Key)向量,以此Query‑Key对计算注意力矩阵。本发明能自动计算集群个数和初始聚类中心点,缓解了聚类对人工选取这两个值的敏感问题,执行速度快,并且能避免因空间位置编码的各种组合而带来的大语言模型高复杂性,具有更好的灵活性、计算量小、鲁棒性强的优点。
Patent Agency Ranking
0/0