-
公开(公告)号:CN116306596B
公开(公告)日:2023-09-19
申请号:CN202310271882.4
申请日:2023-03-16
Applicant: 北京语言大学
IPC: G06F40/232 , G06F18/25 , G06F18/214 , G06N3/045 , G06N3/047 , G06N3/048
Abstract: 本发明涉及语言处理技术领域,特别是指一种结合多重特征进行中文文本拼写检查的方法及装置,方法包括:获取待检查文本;获取训练完毕的文本拼写检查模型;其中,所述语义编码器为基于BERT的语义编码器;所述混淆编码器为基于Transformer的层次化混淆编码器;所述信息融合机制为基于门控和Transformer的信息融合机制;将所述待检查文本输入到所述文本拼写检查模型中,得到所述待检查文本的检查结果。采用本发明,可以将汉字的字音、字形、字义等信息融入到深度学习模型中,进而提高拼写检查模型等甄别及纠正错误的能力。
-
公开(公告)号:CN115994675A
公开(公告)日:2023-04-21
申请号:CN202310284736.5
申请日:2023-03-22
Applicant: 北京语言大学
IPC: G06Q10/0631 , G06Q10/0639 , G06Q10/04 , G06N20/00
Abstract: 本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
-
公开(公告)号:CN115292549B
公开(公告)日:2022-12-20
申请号:CN202211224562.5
申请日:2022-10-09
Applicant: 北京语言大学
IPC: G06F16/84
Abstract: 本发明提供了一种基于规则的树库自动转换方法及系统,涉及自然语言处理技术领域。包括:将输入的短语结构字符串进行多叉树数据结构构造;初始化xml存储根节点xml_root对象;对多叉树进行先序遍历;判断句子中是否存在小句,若不存在则进行规则转换流程;遍历每个子节点,判断子节点是否符合句法成分转换规则以及句式转换规则,新建xml_root的子节点;对终端节点进行词性规则的转换,根据词性转换规则表将其转换为句式结构树库的词性;将更新的xml_root转换为xml字符串,生成xml文件。充分利用短语结构树库和句式结构树库的标注体系的对应规律,为建立高质量的树库转换模型和句式结构句法分析器提供了有效的数据支持,对句式结构自动句法分析等研究具有重要意义。
-
公开(公告)号:CN112364639B
公开(公告)日:2021-09-07
申请号:CN202011121675.3
申请日:2020-10-19
Applicant: 北京语言大学
IPC: G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于预训练语言模型的上下文敏感的释义生成方法及系统,该方法包括:获取训练数据集;其中,训练数据集中包括被释义词、被释义词所在的上下文,以及被释义词对应的释义;构建用于为被释义词生成释义的释义模型;其中,释义模型基于编码器‑解码器框架,释义模型的编码器为预训练的语言模型;基于所述训练数据集,对所述释义模型进行训练;通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。本发明具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。
-
公开(公告)号:CN112364990B
公开(公告)日:2021-06-04
申请号:CN202011183390.2
申请日:2020-10-29
Applicant: 北京语言大学
IPC: G06N3/08 , G06K9/62 , G06F30/27 , G06F40/253
Abstract: 本发明公开了一种通过元学习实现语法改错少样本领域适应的方法及系统,该方法包括:构建预训练数据集,其包括二语学习者所写的句子和母语修改者修改后的句子;构建源领域数据集,其包括多个领域的语法改错数据;构建目标领域数据集,其包括验证领域的数据和测试领域的数据;先使用预训练数据集对语法改错模型进行预训练;然后,使用源领域数据集对模型进行元训练;基于目标领域数据集,对元训练后的语法改错模型进行微调,使得调整后的语法改错模型可以对目标领域数据集中的数据进行语法改错的测试。本发明在语法改错系统的基础上,使用元学习技术实现了语法改错在少样本领域的适应,提升了语法改错的性能。
-
公开(公告)号:CN117910481A
公开(公告)日:2024-04-19
申请号:CN202410317012.0
申请日:2024-03-20
Applicant: 北京语言大学
Abstract: 本发明公开了用于辅助语言学习的口语对话方法和装置、对话机器人,属于自然语言处理技术领域,所述方法包括:构建口语对话数据集;构建用于辅助语言学习的对话语言模型;使用所述口语对话数据集对所述对话语言模型进行指令微调,得到目标语言模型;构建用于口语教学任务的智能体框架;为所述智能体框架中各所述智能体设置角色任务;在口语对话过程中,依据所述智能体框架中各智能体对应的角色任务和所述目标语言模型,生成口语对话文本。本发明提供的用于辅助语言学习的口语对话方案,能够提升语言学习效果、灵活使用多种场景的辅助语言学习。
-
公开(公告)号:CN116484811B
公开(公告)日:2023-09-19
申请号:CN202310714039.9
申请日:2023-06-16
Applicant: 北京语言大学
IPC: G06F40/166 , G06N3/0455 , G06F18/214
Abstract: 本发明公开了一种用于多种编辑意图的文本修订方法及装置,涉及自然语言处理技术领域。包括:获取包含多种修订需求且无编辑意图的待修订的句子文本;将句子文本输入到训练好的文本修订任务模型;根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。本发明具有逻辑清晰、适配性强、准确率高、效率高的优点,妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。
-
公开(公告)号:CN114282515B
公开(公告)日:2022-07-08
申请号:CN202210148591.1
申请日:2022-02-18
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
-
公开(公告)号:CN114282515A
公开(公告)日:2022-04-05
申请号:CN202210148591.1
申请日:2022-02-18
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
-
公开(公告)号:CN116484811A
公开(公告)日:2023-07-25
申请号:CN202310714039.9
申请日:2023-06-16
Applicant: 北京语言大学
IPC: G06F40/166 , G06N3/0455 , G06F18/214
Abstract: 本发明公开了一种用于多种编辑意图的文本修订方法及装置,涉及自然语言处理技术领域。包括:获取包含多种修订需求且无编辑意图的待修订的句子文本;将句子文本输入到训练好的文本修订任务模型;根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。本发明具有逻辑清晰、适配性强、准确率高、效率高的优点,妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。
-
-
-
-
-
-
-
-
-