一种从视频字幕中提取概念词的方法
Abstract:
本发明公开了一种从视频字幕中提取概念词的方法,其包括如下步骤:对字幕文本进行分词处理,并删除标点符号;对分词后的字幕文本进行停止词和词性标注;计算目标单词和相邻词的共现特征;计算目标单词和相邻词的语义相似度;对分词后的少量字幕文本进行概念词标记,作为训练集;根据所述训练集对预先建立的基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果。基于本发明提供的提取概念词的方法,减轻了人工标注语料的工作量,提升了在MOOC视频字幕场景中提取概念词的准确性,并满足了实际需求。
Public/Granted literature
Patent Agency Ranking
0/0