短文本主题分布的推理方法、系统、计算机设备和存储介质

    公开(公告)号:CN112183108B

    公开(公告)日:2021-06-22

    申请号:CN202010927402.1

    申请日:2020-09-07

    Abstract: 本申请涉及一种短文本主题分布的推理方法、系统、计算机设备和存储介质。该方法包括:抽取单位时间内短文本中出现的共现词对,整合共现词对获取词组集合;根据语义相似度和历史共现度对所述词组集合进行关联,获取词组集合的动态关联度,并以词组矩阵形式存储所述动态关联度;从词组集合中进行主题名称的抽取,并根据所述动态关联度修正所述主题名称;统计修正后的所述短文本中主题名称,获取所述短文本的主题分布。通过设计的动态关联度这一指标,赋予了各个共现词对不同的重要性。此外,该方法中主题名称的提取具有偏向性的主题模型,从而能够抽取出更加连续紧凑的各种主题名称,更加准确的推理出各个短文本的主题分布。

Patent Agency Ranking