-
公开(公告)号:CN111339753B
公开(公告)日:2023-06-16
申请号:CN202010117792.6
申请日:2020-02-25
Applicant: 北京林业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种自适应中文新词识别方法及系统,所述方法包括如下步骤:文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平αp确定文本text中的所有非偶然共现的相邻汉字对;统计关联性判定步骤:给定关联性显著性水平αk,判定文本text中相邻中文字符的关联程度,筛选出具有内部强关联的中文字符串;现有词库过滤步骤:基于现有词典,在满足非偶然共现和内部关联性强的字符串中筛选出尚未在词典中出现的中文字符串。
-
公开(公告)号:CN110196968B
公开(公告)日:2023-04-07
申请号:CN201910488932.8
申请日:2019-06-06
Applicant: 北京林业大学
IPC: G06F40/126 , G06F40/279 , G06F40/216 , G06F16/903
Abstract: 本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
-
公开(公告)号:CN112906376A
公开(公告)日:2021-06-04
申请号:CN202110315017.6
申请日:2021-03-24
Applicant: 北京林业大学
IPC: G06F40/279 , G06F40/216 , H04L29/08
Abstract: 本发明公开了一种自适应匹配的用户英语学习文本推送系统和方法,包括客户端和服务端;客户端包括:登录模块,用户在客户端输入用户名和密码进行登录验证;用户阅读等级设定模块,用于设定用户的初始等级,用户首次使用本系统时,需要对用户阅读水平进行评估。所述服务端包括:用户阅读等级确定模块,用于确定用户阅读等级,进一步包括文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块、目标文本自动识别分级模块;自适应阅读推荐模块,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
-
公开(公告)号:CN111859915A
公开(公告)日:2020-10-30
申请号:CN202010735101.9
申请日:2020-07-28
Applicant: 北京林业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30 , G06K9/62 , G06N20/00
Abstract: 本发明提出一种基于词频显著度水平的英文文本类别识别方法及系统,所述方法包括如下步骤:步骤1、示例文本词频统计:将各文本中的概念实词做标准化处理,统计各个类别中各概念实词的词频信息,为后续文本类别的特征提取提供数据支持;步骤2、文本类别特征提取:基于各类别示例文本的词频统计信息,根据给定的显著性水平α,采用假设检验的方法确定各个主题类别的特征词,得到特征词集合;步骤3、零出现特征词识别:在特征词集合中,找出在目标文本中没有出现,但却构成某些类别负特征的单词;步骤4、目标文本词频统计:统计目标文本中所有特征词的词频信息;步骤5、目标文本类别识别:根据目标文本和特征词集合中单词的词频信息、零出现特征词集合,以及给定的类别距离计算方法,确定目标文本的类别归属。
-
公开(公告)号:CN110196968A
公开(公告)日:2019-09-03
申请号:CN201910488932.8
申请日:2019-06-06
Applicant: 北京林业大学
IPC: G06F17/22 , G06F17/27 , G06F16/903
Abstract: 本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
-
公开(公告)号:CN106484677B
公开(公告)日:2019-02-12
申请号:CN201610874929.6
申请日:2016-09-30
Applicant: 北京林业大学
IPC: G06F17/27 , G06F16/2458
Abstract: 本发明涉及一种基于最小信息量的汉语快速分词系统及方法,包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。
-
-
-
-
-