一种自然语言文本的惯用句式提取方法及电子装置

    公开(公告)号:CN113779961A

    公开(公告)日:2021-12-10

    申请号:CN202010518026.0

    申请日:2020-06-09

    Abstract: 本发明提供一种自然语言文本的惯用句式提取方法及电子装置,包括:对采集到的每一语句进行分词、词性标注及依存句法分析;将各语句转换为若干单句,并依据词性标注结果与依存句法分析结果,对各单句主干进行抽取,将各单句表示为词汇和词性标签的列表;将各单句的列表进行合并,得到各语句的惯用句式。本发明提出一种不损失句式信息的长难句化简方法,针对句式提取的需要对中文长难句中非句子主干部分进行处理,提高句式提取准确度,本发明还提出一种句式信息表示结构,使用词汇、词汇候选集、词性标签来表示句式信息,保留尽可能多的句式信息。

    一种针对海量文本数据的定向筛选架构及方法

    公开(公告)号:CN113742478A

    公开(公告)日:2021-12-03

    申请号:CN202010474192.5

    申请日:2020-05-29

    Abstract: 本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。

    一种自然语言文本的惯用句式提取方法及电子装置

    公开(公告)号:CN113779961B

    公开(公告)日:2024-10-01

    申请号:CN202010518026.0

    申请日:2020-06-09

    Abstract: 本发明提供一种自然语言文本的惯用句式提取方法及电子装置,包括:对采集到的每一语句进行分词、词性标注及依存句法分析;将各语句转换为若干单句,并依据词性标注结果与依存句法分析结果,对各单句主干进行抽取,将各单句表示为词汇和词性标签的列表;将各单句的列表进行合并,得到各语句的惯用句式。本发明提出一种不损失句式信息的长难句化简方法,针对句式提取的需要对中文长难句中非句子主干部分进行处理,提高句式提取准确度,本发明还提出一种句式信息表示结构,使用词汇、词汇候选集、词性标签来表示句式信息,保留尽可能多的句式信息。

    一种针对海量文本数据的定向筛选装置及方法

    公开(公告)号:CN113742478B

    公开(公告)日:2023-09-05

    申请号:CN202010474192.5

    申请日:2020-05-29

    Abstract: 本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。

    一种基于时空图的诈骗号码识别方法

    公开(公告)号:CN111726460A

    公开(公告)日:2020-09-29

    申请号:CN202010542365.2

    申请日:2020-06-15

    Abstract: 一种基于时空图的诈骗号码识别方法,包括:由全量通话记录生成电信通联网络,并构建识别诈骗号码的时空图,使用Snapshot方法按时间间隔T、从图中连续截取出多张时空子图;基于用户在每张时空子图对应时间周期下的通话记录,计算每个用户在每张时空子图对应时间周期下的通话特征指标向量,同时,为每个用户从时空子图中提取和其有相同被叫的邻居用户;构建、并训练识别诈骗号码的时空图神经网络;将待识别目标用户和其所有邻居用户在所有时空子图中的通话特征指标向量输入时空图神经网络,并根据输出判断待识别目标用户号码是否是疑似诈骗号码。本发明属于信息技术领域,能动态的捕获到号码呼叫行为的变化,从而实现诈骗号码的精准识别。

Patent Agency Ranking