-
公开(公告)号:CN113934850B
公开(公告)日:2022-06-17
申请号:CN202111289536.6
申请日:2021-11-02
Applicant: 北京语言大学
Abstract: 本发明公开了一种融合文本分布律特征的中文文本可读性评价方法及系统,所述方法包括:确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。
-
公开(公告)号:CN112115701A
公开(公告)日:2020-12-22
申请号:CN202010930665.8
申请日:2020-09-07
Applicant: 北京语言大学
IPC: G06F40/211 , G06F40/284 , G06F40/289
Abstract: 本发明公开了一种新闻阅读文本可读性评价方法及系统,该方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计算出每一句子的句子配数;基于各句子的句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算该句子配数分形维数与上述分句列表的长度的比值,得到修正句子配数分形维数;基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价。本发明利用修正句子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1值。
-
公开(公告)号:CN110427621A
公开(公告)日:2019-11-08
申请号:CN201910668339.1
申请日:2019-07-23
Applicant: 北京语言大学
IPC: G06F17/27
Abstract: 本发明提供一种汉语分类词语提取方法及系统,用种子词对未分词语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并再次汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。本发明可有效提取语料中的特定分类词语,从而为分类分级词表的构建提供基础。
-
公开(公告)号:CN110427621B
公开(公告)日:2020-11-20
申请号:CN201910668339.1
申请日:2019-07-23
Applicant: 北京语言大学
IPC: G06F40/284
Abstract: 本发明提供一种汉语分类词语提取方法及系统,用种子词对未分词语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并再次汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。本发明可有效提取语料中的特定分类词语,从而为分类分级词表的构建提供基础。
-
公开(公告)号:CN110222174B
公开(公告)日:2020-08-11
申请号:CN201910420746.0
申请日:2019-05-20
Applicant: 北京语言大学
IPC: G06F16/35
Abstract: 本发明提供一种基于词条作品热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;然后根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;并将同一词条所对应的各作品热度求和,得到相应词条的词条热度;最后根据每一词条对应的词条热度,对词集中词条进行排序并基于排序结果构建分类分级词表。本发明可解决对于作品字数不平衡语料库,现有分类分级词表构建方法对词条排序不合理的问题。
-
公开(公告)号:CN110222175A
公开(公告)日:2019-09-10
申请号:CN201910420769.1
申请日:2019-05-20
Applicant: 北京语言大学
Inventor: 赵慧周
Abstract: 本发明提供一种基于词条作家热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在同一作家的各作品中出现的频次和该作家每一作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;将同一词条所对应的各作家热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。本发明可以解决对于作品字数不平衡和作家作品数不平衡的文学语料库,现有分类分级词表构建方法对词条排序不合理的问题。
-
公开(公告)号:CN113934850A
公开(公告)日:2022-01-14
申请号:CN202111289536.6
申请日:2021-11-02
Applicant: 北京语言大学
Abstract: 本发明公开了一种融合文本分布律特征的中文文本可读性评价方法及系统,所述方法包括:确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。
-
公开(公告)号:CN112115701B
公开(公告)日:2021-07-09
申请号:CN202010930665.8
申请日:2020-09-07
Applicant: 北京语言大学
IPC: G06F40/211 , G06F40/284 , G06F40/289
Abstract: 本发明公开了一种新闻阅读文本可读性评价方法及系统,该方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计算出每一句子的句子配数;基于各句子的句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算该句子配数分形维数与上述分句列表的长度的比值,得到修正句子配数分形维数;基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价。本发明利用修正句子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1值。
-
公开(公告)号:CN110222175B
公开(公告)日:2020-08-25
申请号:CN201910420769.1
申请日:2019-05-20
Applicant: 北京语言大学
Inventor: 赵慧周
Abstract: 本发明提供一种基于词条作家热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在同一作家的各作品中出现的频次和该作家每一作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;将同一词条所对应的各作家热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。本发明可以解决对于作品字数不平衡和作家作品数不平衡的文学语料库,现有分类分级词表构建方法对词条排序不合理的问题。
-
公开(公告)号:CN110222174A
公开(公告)日:2019-09-10
申请号:CN201910420746.0
申请日:2019-05-20
Applicant: 北京语言大学
IPC: G06F16/35
Abstract: 本发明提供一种基于词条作品热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;然后根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;并将同一词条所对应的各作品热度求和,得到相应词条的词条热度;最后根据每一词条对应的词条热度,对词集中词条进行排序并基于排序结果构建分类分级词表。本发明可解决对于作品字数不平衡语料库,现有分类分级词表构建方法对词条排序不合理的问题。
-
-
-
-
-
-
-
-
-