-
公开(公告)号:CN115994675B
公开(公告)日:2023-07-04
申请号:CN202310284736.5
申请日:2023-03-22
Applicant: 北京语言大学
IPC: G06Q10/0631 , G06Q10/0639 , G06Q10/04 , G06N20/00
Abstract: 本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
-
公开(公告)号:CN115906815B
公开(公告)日:2023-06-27
申请号:CN202310213349.2
申请日:2023-03-08
Applicant: 北京语言大学
IPC: G06F40/232 , G06F40/211
Abstract: 本发明公开了一种用于修改一种或多种类型错误句子的纠错方法及装置,涉及自然语言处理技术领域。包括获取待纠错的句子文本以及句子文本对应的错误类型标签;将句子文本以及错误类型标签输入到训练好的句子纠错任务模型;其中,句子纠错任务模型包括主干模型以及模型前缀;根据句子文本、错误类型标签以及句子纠错任务模型,得到待纠错的句子文本所对应的无错误的句子文本。本发明具有逻辑清晰、适配性强、准确率高的优点,妥善解决了现有技术在句子纠错时无法兼顾不同错误类型,不能进行适配性纠错的问题。
-
公开(公告)号:CN115906815A
公开(公告)日:2023-04-04
申请号:CN202310213349.2
申请日:2023-03-08
Applicant: 北京语言大学
IPC: G06F40/232 , G06F40/211
Abstract: 本发明公开了一种用于修改一种或多种类型错误句子的纠错方法及装置,涉及自然语言处理技术领域。包括获取待纠错的句子文本以及句子文本对应的错误类型标签;将句子文本以及错误类型标签输入到训练好的句子纠错任务模型;其中,句子纠错任务模型包括主干模型以及模型前缀;根据句子文本、错误类型标签以及句子纠错任务模型,得到待纠错的句子文本所对应的无错误的句子文本。本发明具有逻辑清晰、适配性强、准确率高的优点,妥善解决了现有技术在句子纠错时无法兼顾不同错误类型,不能进行适配性纠错的问题。
-
公开(公告)号:CN112364639A
公开(公告)日:2021-02-12
申请号:CN202011121675.3
申请日:2020-10-19
Applicant: 北京语言大学
IPC: G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于预训练语言模型的上下文敏感的释义生成方法及系统,该方法包括:获取训练数据集;其中,训练数据集中包括被释义词、被释义词所在的上下文,以及被释义词对应的释义;构建用于为被释义词生成释义的释义模型;其中,释义模型基于编码器‑解码器框架,释义模型的编码器为预训练的语言模型;基于所述训练数据集,对所述释义模型进行训练;通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。本发明具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。
-
公开(公告)号:CN115965014A
公开(公告)日:2023-04-14
申请号:CN202310261875.6
申请日:2023-03-17
Applicant: 北京语言大学
IPC: G06F40/279 , G06F40/126 , G06F18/214
Abstract: 本发明涉及文本生成技术领域,特别是指一种根据关键词生成对应的目标生成句子的方法及装置。构建初始文本生成模型;获取训练样本,通过训练样本对初始文本生成模型进行训练,得到训练完毕的待评测文本生成模型;基于预设的基线模型,对待评测文本生成模型进行评测,确定通过评测的文本生成模型;获取目标生成句子的关键词以及词汇复杂度等级;将关键词以及词汇复杂度等级输入到文本生成模型中,生成关键词对应的目标生成句子。采用本发明,可以生成词汇复杂度可控且具有较好的流利度和语义一致性的句子文本,提高文本生成的实用性。
-
公开(公告)号:CN115062609B
公开(公告)日:2022-12-09
申请号:CN202210996111.7
申请日:2022-08-19
Applicant: 北京语言大学
IPC: G06F40/211 , G06F40/30 , G06F40/268 , G06F40/289
Abstract: 本发明公开了一种汉语增强依存句法的方法及装置,涉及自然语言处理技术领域。包括:获取待增强的句子;获取句子的基础依存句法结果;基于构建好的依存增强规则集与句子的基础依存句法结果进行匹配,得到待增强的句子的增强依存句法结果。本发明具有逻辑清晰、效率高、比较全面的优点,妥善解决了现有依存句法分析无法充分表达实词间的语义关系,增加了进一步研究和应用的工作量的问题。
-
公开(公告)号:CN115292549A
公开(公告)日:2022-11-04
申请号:CN202211224562.5
申请日:2022-10-09
Applicant: 北京语言大学
IPC: G06F16/84
Abstract: 本发明提供了一种基于规则的树库自动转换方法及系统,涉及自然语言处理技术领域。包括:将输入的短语结构字符串进行多叉树数据结构构造;初始化xml存储根节点xml_root对象;对多叉树进行先序遍历;判断句子中是否存在小句,若不存在则进行规则转换流程;遍历每个子节点,判断子节点是否符合句法成分转换规则以及句式转换规则,新建xml_root的子节点;对终端节点进行词性规则的转换,根据词性转换规则表将其转换为句式结构树库的词性;将更新的xml_root转换为xml字符串,生成xml文件。充分利用短语结构树库和句式结构树库的标注体系的对应规律,为建立高质量的树库转换模型和句式结构句法分析器提供了有效的数据支持,对句式结构自动句法分析等研究具有重要意义。
-
公开(公告)号:CN114139532B
公开(公告)日:2022-04-19
申请号:CN202210113483.0
申请日:2022-01-30
Applicant: 北京语言大学
IPC: G06F40/242 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于多任务框架进行简单释义生成的方法与系统,所述方法包括:构建训练数据集,所述训练数据集中包含待释义词、待释义词所在上下文的知识信息、待释义词对应的释义以及简单句的知识信息;构建释义生成模型,用于为待释义词生成释义;使用所述训练数据集对所述释义生成模型进行训练;利用训练好的释义生成模型对未包含在所述训练数据集中的待释义词进行释义生成,同时生成复杂释义和简单释义。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有技术在生成释义时没有考虑释义复杂度,不能生成对二语学习者友好的简单释义的问题。
-
公开(公告)号:CN114139532A
公开(公告)日:2022-03-04
申请号:CN202210113483.0
申请日:2022-01-30
Applicant: 北京语言大学
IPC: G06F40/242 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于多任务框架进行简单释义生成的方法与系统,所述方法包括:构建训练数据集,所述训练数据集中包含待释义词、待释义词所在上下文的知识信息、待释义词对应的释义以及简单句的知识信息;构建释义生成模型,用于为待释义词生成释义;使用所述训练数据集对所述释义生成模型进行训练;利用训练好的释义生成模型对未包含在所述训练数据集中的待释义词进行释义生成,同时生成复杂释义和简单释义。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有技术在生成释义时没有考虑释义复杂度,不能生成对二语学习者友好的简单释义的问题。
-
公开(公告)号:CN116306596A
公开(公告)日:2023-06-23
申请号:CN202310271882.4
申请日:2023-03-16
Applicant: 北京语言大学
IPC: G06F40/232 , G06F18/25 , G06F18/214 , G06N3/045 , G06N3/047 , G06N3/048
Abstract: 本发明涉及语言处理技术领域,特别是指一种结合多重特征进行中文文本拼写检查的方法及装置,方法包括:获取待检查文本;获取训练完毕的文本拼写检查模型;其中,所述语义编码器为基于BERT的语义编码器;所述混淆编码器为基于Transformer的层次化混淆编码器;所述信息融合机制为基于门控和Transformer的信息融合机制;将所述待检查文本输入到所述文本拼写检查模型中,得到所述待检查文本的检查结果。采用本发明,可以将汉字的字音、字形、字义等信息融入到深度学习模型中,进而提高拼写检查模型等甄别及纠正错误的能力。
-
-
-
-
-
-
-
-
-