一种弹幕关键词提取方法、装置、设备及介质

    公开(公告)号:CN112989802A

    公开(公告)日:2021-06-18

    申请号:CN202110115490.X

    申请日:2021-01-28

    Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

    一种弹幕关键词提取方法、装置、设备及介质

    公开(公告)号:CN112989802B

    公开(公告)日:2023-06-20

    申请号:CN202110115490.X

    申请日:2021-01-28

    Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

Patent Agency Ranking