一种汉语分类词语提取方法及系统

    公开(公告)号:CN110427621A

    公开(公告)日:2019-11-08

    申请号:CN201910668339.1

    申请日:2019-07-23

    Inventor: 赵慧周 王治敏

    Abstract: 本发明提供一种汉语分类词语提取方法及系统,用种子词对未分词语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并再次汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。本发明可有效提取语料中的特定分类词语,从而为分类分级词表的构建提供基础。

    一种基于词条作品热度构建分类分级词表的方法及系统

    公开(公告)号:CN110222174A

    公开(公告)日:2019-09-10

    申请号:CN201910420746.0

    申请日:2019-05-20

    Inventor: 赵慧周 王治敏

    Abstract: 本发明提供一种基于词条作品热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;然后根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;并将同一词条所对应的各作品热度求和,得到相应词条的词条热度;最后根据每一词条对应的词条热度,对词集中词条进行排序并基于排序结果构建分类分级词表。本发明可解决对于作品字数不平衡语料库,现有分类分级词表构建方法对词条排序不合理的问题。

    面向汉语教学的词语常用度的获取方法及获取系统

    公开(公告)号:CN104731769B

    公开(公告)日:2017-11-14

    申请号:CN201510102773.5

    申请日:2015-03-09

    Inventor: 王治敏

    Abstract: 本发明提供了一种面向汉语教学的词语常用度的获取方法及获取系统,词语常用度的获取方法包括:设置时间区间T,并将所述时间区间T分成多个时间子区间t1,t2,...,tn;选取对应于所述时间子区间t1,t2,...,tn的语料;解析所述语料获得候选词语;统计所述候选词语在所述时间子区间t1,t2,...,tn对应的所述语料中出现的子次数f1,f2,…,fn;求所述子次数f1,f2,…,fn之和,获得所述候选词语在所述时间区间T对应的所述语料中出现的总次数f;将所述总次数f除以所述统计次数n得到所述候选词语在所述时间子区间t1,t2,...,tn出现的平均次数基于所述子次数f1,f2,…,fn和所述平均次数获得所述候选词语的标准差stdev(f);以及基于所述平均次数和所述标准差stdev(f)获得所述候选词语的常用度U。本发明解决现有技术中不能精准提取用于汉语教学的常用词语的技术问题。

    基于国际中文教育教学语法知识资源研建方法及装置

    公开(公告)号:CN114997150B

    公开(公告)日:2024-02-02

    申请号:CN202210575496.X

    申请日:2022-05-25

    Inventor: 王治敏 张俊萍

    Abstract: 本发明公开了一种基于国际中文教育教学语法知识资源研建方法及装置,涉及汉语语法点识别技术领域。包括:获取待查询的语法点;将待查询的语法点输入到构建好的联通教学模型中;根据待查询的语法点以及联通教学模型,得到待查询的语法点的教学语法理论知识以及课堂教学实践流程。本发明能够实现教学语法与传统语法的有效联通,解决现有对外汉语教学语法中形式化、模块化呈现。大部分是纸质的语法教学资源,或者即使是基于互联网的语法教学资源,这些资源也均需提前录制,不可由学习者自由扩充和任意组合,互动性较差的问题。

    基于国际中文教育教学语法知识资源研建方法及装置

    公开(公告)号:CN114997150A

    公开(公告)日:2022-09-02

    申请号:CN202210575496.X

    申请日:2022-05-25

    Inventor: 王治敏 张俊萍

    Abstract: 本发明公开了一种基于国际中文教育教学语法知识资源研建方法及装置,涉及汉语语法点识别技术领域。包括:获取待查询的语法点;将待查询的语法点输入到构建好的联通教学模型中;根据待查询的语法点以及联通教学模型,得到待查询的语法点的教学语法理论知识以及课堂教学实践流程。本发明能够实现教学语法与传统语法的有效联通,解决现有对外汉语教学语法中形式化、模块化呈现。大部分是纸质的语法教学资源,或者即使是基于互联网的语法教学资源,这些资源也均需提前录制,不可由学习者自由扩充和任意组合,互动性较差的问题。

    一种汉语分类词语提取方法及系统

    公开(公告)号:CN110427621B

    公开(公告)日:2020-11-20

    申请号:CN201910668339.1

    申请日:2019-07-23

    Inventor: 赵慧周 王治敏

    Abstract: 本发明提供一种汉语分类词语提取方法及系统,用种子词对未分词语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并再次汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。本发明可有效提取语料中的特定分类词语,从而为分类分级词表的构建提供基础。

    一种基于词条作品热度构建分类分级词表的方法及系统

    公开(公告)号:CN110222174B

    公开(公告)日:2020-08-11

    申请号:CN201910420746.0

    申请日:2019-05-20

    Inventor: 赵慧周 王治敏

    Abstract: 本发明提供一种基于词条作品热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;然后根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;并将同一词条所对应的各作品热度求和,得到相应词条的词条热度;最后根据每一词条对应的词条热度,对词集中词条进行排序并基于排序结果构建分类分级词表。本发明可解决对于作品字数不平衡语料库,现有分类分级词表构建方法对词条排序不合理的问题。

    面向汉语教学的词语常用度的获取方法及获取系统

    公开(公告)号:CN104731769A

    公开(公告)日:2015-06-24

    申请号:CN201510102773.5

    申请日:2015-03-09

    Inventor: 王治敏

    Abstract: 本发明提供了一种面向汉语教学的词语常用度的获取方法及获取系统,词语常用度的获取方法包括:设置时间区间T,并将所述时间区间T分成多个时间子区间t1,t2,...,tn;选取对应于所述时间子区间t1,t2,...,tn的语料;解析所述语料获得候选词语;统计所述候选词语在所述时间子区间t1,t2,...,tn对应的所述语料中出现的子次数f1,f2,…,fn;求所述子次数f1,f2,…,fn之和,获得所述候选词语在所述时间区间T对应的所述语料中出现的总次数f;将所述总次数f除以所述统计次数n得到所述候选词语在所述时间子区间t1,t2,...,tn出现的平均次数基于所述子次数f1,f2,…,fn和所述平均次数获得所述候选词语的标准差stdev(f);以及基于所述平均次数和所述标准差stdev(f)获得所述候选词语的常用度U。本发明解决现有技术中不能精准提取用于汉语教学的常用词语的技术问题。

Patent Agency Ranking