基于电力词典的文本处理方法

    公开(公告)号:CN107577713B

    公开(公告)日:2018-09-11

    申请号:CN201710655843.9

    申请日:2017-08-03

    Abstract: 本发明提供了一种基于电力词典的文本处理方法,包括以下步骤:步骤S100,获取电力系统使用的包括文本数据的文件,对该文件进行数据清理,从而获得清理后的文本数据;步骤S200,根据通用词典和所述电力词典,对所述文本数据进行分词处理,获得分词向量;步骤S300,根据电力词汇分词向量和通用词汇分词向量,计算电力文本标志,形成文本元数据。通过使用电力词典进行分词及后续处理,本发明能够获得有效的元数据,从而为文本相似计算、文档分类、聚类、文本检索等提供支撑。本发明还提供了一种文本检索方法。

Patent Agency Ranking