一种多维源代码表征学习方法和装置

    公开(公告)号:CN118796200A

    公开(公告)日:2024-10-18

    申请号:CN202410474545.X

    申请日:2024-04-19

    Abstract: 本发明公开了一种多维源代码表征学习方法和装置,包括:获取源代码的词法单元Token序列、抽象语法树AST、程序依赖图PDG;根据Token序列获取源代码的属性特征向量,根据AST获取源代码的结构特征向量,根据PDG获取源代码的语义特征向量,实现了将源代码的语义信息表示为稠密低维实值向量,在低维空间中高效计算实体和关系的语义联系。通过对属性特征向量、结构特征向量、语义特征向量进行特征融合处理,获取源代码的多维表征,实现了对代码信息的充分利用,以更加全面准确与智能化的方式提高下游代码任务的准确率。

Patent Agency Ranking