Invention Publication
- Patent Title: 一种基于CK-means++的稀疏注意力机制方法
-
Application No.: CN202510090129.4Application Date: 2025-01-21
-
Publication No.: CN119918580APublication Date: 2025-05-02
- Inventor: 吴蕊清 , 程志强 , 王亮 , 张帆 , 董慧杰 , 顾玮贞 , 张鹏杨
- Applicant: 中国人民解放军91776部队
- Applicant Address: 北京市丰台区莲花池西里9号院
- Assignee: 中国人民解放军91776部队
- Current Assignee: 中国人民解放军91776部队
- Current Assignee Address: 北京市丰台区莲花池西里9号院
- Agency: 中国人民解放军海军专利服务中心
- Agent 杨祖耀
- Main IPC: G06N3/045
- IPC: G06N3/045 ; G06F18/23213 ; G06N3/0495

Abstract:
本发明提出了一种基于CK‑means++的稀疏注意力机制方法,运用于大语言模型训练时所需要针对稀疏注意力矩阵进行聚类的情况。本发明采用Canopy聚类和均值计方法对transformer注意力层的查询(Query)向量和键(Key)向量进行处理以确定聚类集群个数,根据集群个数采用轮盘法迭代计算确定各集群的初始中心点,然后依据聚类集群个数和各集群的初始中心点进行K‑means聚类收敛计算,最终求得与各查询(Query)向量相似度高的键(Key)向量,以此Query‑Key对计算注意力矩阵。本发明能自动计算集群个数和初始聚类中心点,缓解了聚类对人工选取这两个值的敏感问题,执行速度快,并且能避免因空间位置编码的各种组合而带来的大语言模型高复杂性,具有更好的灵活性、计算量小、鲁棒性强的优点。
Information query