-
公开(公告)号:CN118796200A
公开(公告)日:2024-10-18
申请号:CN202410474545.X
申请日:2024-04-19
Applicant: 北京理工大学
IPC: G06F8/41 , G06F18/213 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了一种多维源代码表征学习方法和装置,包括:获取源代码的词法单元Token序列、抽象语法树AST、程序依赖图PDG;根据Token序列获取源代码的属性特征向量,根据AST获取源代码的结构特征向量,根据PDG获取源代码的语义特征向量,实现了将源代码的语义信息表示为稠密低维实值向量,在低维空间中高效计算实体和关系的语义联系。通过对属性特征向量、结构特征向量、语义特征向量进行特征融合处理,获取源代码的多维表征,实现了对代码信息的充分利用,以更加全面准确与智能化的方式提高下游代码任务的准确率。