基于神经网络语言模型向量化的文本处理方法

    公开(公告)号:CN111178054A

    公开(公告)日:2020-05-19

    申请号:CN201911234069.X

    申请日:2019-12-05

    Abstract: 本申请实施例提出了基于神经网络语言模型向量化的文本处理方法,包括从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;对表征相似度距离的分类结果进行编码处理得到编码后的数字串;基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。通过使用向量化方式基于空间相似度对电力文本进行归类和提取,能够弥补现有基础中无法对文本数据进行直接运算处理的缺陷,从而提升了处理效率。

Patent Agency Ranking