-
公开(公告)号:CN116701628A
公开(公告)日:2023-09-05
申请号:CN202310676884.1
申请日:2023-06-08
Applicant: 北京林业大学
IPC: G06F16/35 , G06F16/335 , G06F16/33 , G06F40/216 , G06F40/289 , G06F40/30
Abstract: 本发明涉及一种无监督自适应领域术语识别方法及系统,其方法包括:S1:对待识别文本进行预处理,得到字符串序列;S2:分词处理字符串序列,对分词结果序列的邻接汉字对进行非偶然共现判定,得到非偶然相邻的汉字对集合NCP;S3:根据独立性假设检验,得到NCP中具有强关联性的汉字对,合并汉字对所在的字符串,进而获得满足非偶然性且具有强关联性的字符串作为备选术语;S4:过滤术语备选词中的垃圾字符串,得到过滤后的备选术语;S5:基于掩码语言模型获取过滤后的备选术语的词向量;S6:对备选术语和已有术语的词向量进行密度聚类和筛选,确定备选术语的所属领域。本发明提供的方法可对专业领域文本中的专业术语进行自动识别。
-
公开(公告)号:CN112906376B
公开(公告)日:2023-07-11
申请号:CN202110315017.6
申请日:2021-03-24
Applicant: 北京林业大学
IPC: G06F40/279 , G06F40/216 , H04L67/55
Abstract: 本发明公开了一种自适应匹配的用户英语学习文本推送系统和方法,包括客户端和服务端;客户端包括:登录模块,用户在客户端输入用户名和密码进行登录验证;用户阅读等级设定模块,用于设定用户的初始等级,用户首次使用本系统时,需要对用户阅读水平进行评估。所述服务端包括:用户阅读等级确定模块,用于确定用户阅读等级,进一步包括文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块、目标文本自动识别分级模块;自适应阅读推荐模块,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
-
公开(公告)号:CN117036545A
公开(公告)日:2023-11-10
申请号:CN202310874063.9
申请日:2023-07-17
Applicant: 北京林业大学 , 广州翼渡科技有限公司
IPC: G06T11/60 , G06N3/0464 , G06N3/0442 , G06V10/80 , G06V10/764 , G06V10/774
Abstract: 本发明涉及一种基于图像场景特征的图像描述文本生成方法及系统,提取CNN获得图像的特征图,通过RPN提取特征图中的对象建议框;采用GRU二分结构的推理迭代预测和生成场景图;利用场景图中的对象即节点及其关系,通过CNN从图像中提取视觉特征和从场景图中提取以两个节点及其连接的边构成的三元组作为语义特征,得到视觉特征和语义特征;以Transformer为基础框架,引入片段级递归机制与相对位置编码,利用融合特征实现长依赖文本生成;对基于图像场景特征的图像描述文本生成网络进行训练,通过交叉熵函数计算输出长依赖描述文本与实际值之间的误差,得到图像描述文本生成网络;将待生成描述的图像输入图像描述文本生成网络生成多句连贯可读的故事性文字描述。
-
公开(公告)号:CN118427336A
公开(公告)日:2024-08-02
申请号:CN202410681219.6
申请日:2024-05-29
Applicant: 北京林业大学
IPC: G06F16/335 , G06F40/284
Abstract: 本发明提出一种针对英语单词学习的英文文本推荐方法,属于计算机辅助英语学习领域,包括:S1:基于学习者已掌握的单词以及对应的阈值确定目标单词;S2:筛选文本库中的每一篇文本t中的所有显著性单词;S3:构建文本的词共现网络,并按照单词在词共现网络的中心性特征排序,得到文本的核心单词;S4:将t显著性单词和核心单词中重叠的词作为核心关键词;S5:计算各文本核心排序、平均词频排序、单词丰富度排序和主题排序,基于此得到加权平均排序1;S6:检测学习者是否掌握新词汇,根据检测结果得到备选词;S7:根据备选词和加权平均排序1计算加权平均排序2。本发明自适应地为学习者推荐适合其当前水平的英文阅读文本。
-
公开(公告)号:CN111859915B
公开(公告)日:2023-10-24
申请号:CN202010735101.9
申请日:2020-07-28
Applicant: 北京林业大学
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种基于词频显著度水平的英文文本类别识别方法及系统,所述方法包括如下步骤:步骤1、示例文本词频统计:将各文本中的概念实词做标准化处理,统计各个类别中各概念实词的词频信息,为后续文本类别的特征提取提供数据支持;步骤2、文本类别特征提取:基于各类别示例文本的词频统计信息,根据给定的显著性水平α,采用假设检验的方法确定各个主题类别的特征词,得到特征词集合;步骤3、零出现特征词识别:在特征词集合中,找出在目标文本中没有出现,但却构成某些类别负特征的单词;步骤4、目标文本词频统计:统计目标文本中所有特征词的词频信息;步骤5、目标文本类别识别:根据目标文本和特征词集合中单词的词频信息、零出现特征词集合,以及给定的类别距离计算方法,确定目标文本的类别归属。
-
公开(公告)号:CN116702722A
公开(公告)日:2023-09-05
申请号:CN202310698174.9
申请日:2023-06-13
Applicant: 北京林业大学 , 广州摩翼信息科技有限公司
IPC: G06F40/169 , G06F40/237 , G06F40/194
Abstract: 本发明涉及一种基于句法与语义分析的生词自动标注方法及系统,其方法包括:S1:选择待标注生词以及生词文本句;步骤S2:根据待标注生词的词性筛选目标词条,若有多条目标词条,转步骤S3,若无目标词条,返回“无对应词性词条”,转步骤S4,若只有一条目标词条,则确定待标注生词的词义,转步骤S5;S3:计算生词文本句与每条目标词条相似性并以降序排序,得到相似性列表,如果相似性列表的最大值与次大值的差值不大于K,提示“存在多条可能的词条”,转步骤S4,否则根据相似性列表最大值对应词条确定待标注生词的词义并转步骤S5;S4:人工确定待标注生词词义;S5:根据待标注生词词义,对其进行标注。本发明提供方法实现了英语词汇的自动化标注。
-
公开(公告)号:CN106484677A
公开(公告)日:2017-03-08
申请号:CN201610874929.6
申请日:2016-09-30
Applicant: 北京林业大学
CPC classification number: G06F17/277 , G06F17/2795 , G06F17/30536
Abstract: 本发明涉及一种基于最小信息量的汉语快速分词系统及方法,包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。
-
公开(公告)号:CN114547281B
公开(公告)日:2024-07-05
申请号:CN202210169435.3
申请日:2022-02-23
Applicant: 北京林业大学 , 广州摩翼信息科技有限公司
IPC: G06F16/335 , G06F16/33 , G06F40/253 , G06F40/289
Abstract: 本发明涉及一种基于词汇和语法的英文文本筛选方法及系统,其方法包括:步骤S1:用户登录文本筛选系统,选择文本筛选标准,文本筛选标准包括:文本筛选系统预定义的系统标准,用户定义的用户标准,以及由文本筛选系统基于用户上传的文本所定义的综合标准;步骤S2:用户输入待筛选本文,基于文本筛选标准进行筛选,获得筛选结果。本发明提供的方法,具有简单、高效以及筛选结果更为准确的特点,实现了针对不同学习阶段学习者的适合英语教学文本的筛选,极大程度的降低了人工劳力的投入。
-
公开(公告)号:CN114547281A
公开(公告)日:2022-05-27
申请号:CN202210169435.3
申请日:2022-02-23
Applicant: 北京林业大学 , 广州摩翼信息科技有限公司
IPC: G06F16/335 , G06F16/33 , G06F40/253 , G06F40/289
Abstract: 本发明涉及一种基于词汇和语法的英文文本筛选方法及系统,其方法包括:步骤S1:用户登录文本筛选系统,选择文本筛选标准,文本筛选标准包括:文本筛选系统预定义的系统标准,用户定义的用户标准,以及由文本筛选系统基于用户上传的文本所定义的综合标准;步骤S2:用户输入待筛选本文,基于文本筛选标准进行筛选,获得筛选结果。本发明提供的方法,具有简单、高效以及筛选结果更为准确的特点,实现了针对不同学习阶段学习者的适合英语教学文本的筛选,极大程度的降低了人工劳力的投入。
-
公开(公告)号:CN111339753A
公开(公告)日:2020-06-26
申请号:CN202010117792.6
申请日:2020-02-25
Applicant: 北京林业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种自适应中文新词识别方法及系统,所述方法包括如下步骤:文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平αp确定文本text中的所有非偶然共现的相邻汉字对;统计关联性判定步骤:给定关联性显著性水平αk,判定文本text中相邻中文字符的关联程度,筛选出具有内部强关联的中文字符串;现有词库过滤步骤:基于现有词典,在满足非偶然共现和内部关联性强的字符串中筛选出尚未在词典中出现的中文字符串。
-
-
-
-
-
-
-
-
-