-
公开(公告)号:CN117252154B
公开(公告)日:2024-01-23
申请号:CN202311541516.2
申请日:2023-11-20
Applicant: 北京语言大学
IPC: G06F40/151 , G06N3/048
Abstract: 本发明涉及互联网与云计算技术领域,具体公开了一种基于预训练语言模型的中文简繁字符转换方法及系统,包括:S01:分别建立简体中文嵌入空间和繁体中文嵌入空间;S02:输入文字为简体中文时查找对应的简体中文嵌入空间,获得对应的简体中文字符;S03:利用变换矩阵获得为对抗嵌入繁体中文字符;S04:计算预测得分,判断对抗嵌入繁体中文字符是否来自繁体中文嵌入空间,并优化变换矩阵;S05:对对抗嵌入繁体中文字符进行建模获得繁体上下文文本,映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,优化变换矩阵;S06:添加隐藏变换矩阵,对对抗嵌入繁体中文字符计算隐藏预测概率,到阈值时优化变换矩阵,对应输出繁体中文。
-
公开(公告)号:CN116702898A
公开(公告)日:2023-09-05
申请号:CN202310973852.8
申请日:2023-08-04
Applicant: 北京语言大学
IPC: G06N5/02 , G06F16/36 , G06F40/289 , G06F18/22 , G06N3/0475 , G06N3/094 , G06F40/284
Abstract: 本发明涉及自然语言处理技术领域,具体公开了一种基于知识表示学习的文言文知识迁移方法及系统,包括:步骤S10,获取文言文语料和现代知识图谱,根据文言文语料和现代知识图谱构建训练数据集;步骤S20,对训练数据集进行预处理,得到文言文向量和现代文向量;步骤S30,将T‑MUSE模型作为初始模型,根据文言文向量和现代文向量对初始模型进行多次迭代训练,得到任务模型;步骤S40,根据任务模型对输入的目标文言文向量和目标现代文向量进行处理,得到词向量、对齐词表和文言文三元组。
-
公开(公告)号:CN116701961A
公开(公告)日:2023-09-05
申请号:CN202310973916.4
申请日:2023-08-04
Applicant: 北京语言大学
IPC: G06F18/22 , G06F40/58 , G06F40/289
Abstract: 本发明涉及自然语言处理技术领域,公开了一种对文言文机器翻译结果自动评估的方法和系统,包括:构建待评价数据集;对待评价数据集进行预处理和分词处理;从待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对原文进行翻译,再将得到的目标译文与参考译文和原文对比并进行人工分析,按照原文‑参考译文‑目标译文‑人工打分的方式构建测试数据集;计算参考译文和目标译文的相似度,根据测试数据集计算目标译文的忠实度、流畅度、通俗度三个维度的分数,并计算目标译文的平均分、误差以及相关性,对目标译文进行自动评分;通过赋予忠实度和流畅度权重值,以计算总分数。
-
公开(公告)号:CN117252154A
公开(公告)日:2023-12-19
申请号:CN202311541516.2
申请日:2023-11-20
Applicant: 北京语言大学
IPC: G06F40/151 , G06N3/048
Abstract: 本发明涉及互联网与云计算技术领域,具体公开了一种基于预训练语言模型的中文简繁字符转换方法及系统,包括:S01:分别建立简体中文嵌入空间和繁体中文嵌入空间;S02:输入文字为简体中文时查找对应的简体中文嵌入空间,获得对应的简体中文字符;S03:利用变换矩阵获得为对抗嵌入繁体中文字符;S04:计算预测得分,判断对抗嵌入繁体中文字符是否来自繁体中文嵌入空间,并优化变换矩阵;S05:对对抗嵌入繁体中文字符进行建模获得繁体上下文文本,映射回简体中文,与最初输入的简体中文进行比较,计算损失函数和概率,优化变换矩阵;S06:添加隐藏变换矩阵,对对抗嵌入繁体中文字符计算隐藏预测概率,到阈值时优化变换矩阵,对应输出繁体中文。
-
公开(公告)号:CN116702898B
公开(公告)日:2023-11-03
申请号:CN202310973852.8
申请日:2023-08-04
Applicant: 北京语言大学
IPC: G06F40/58 , G06N5/02 , G06F16/36 , G06F40/289 , G06F18/22 , G06N3/0475 , G06N3/094 , G06F40/284
Abstract: 本发明涉及自然语言处理技术领域,具体公开了一种基于知识表示学习的文言文知识迁移方法及系统,包括:步骤S10,获取文言文语料和现代知识图谱,根据文言文语料和现代知识图谱构建训练数据集;步骤S20,对训练数据集进行预处理,得到文言文向量和现代文向量;步骤S30,将T‑MUSE模型作为初始模型,根据文言文向量和现代文向量对初始模型进行多次迭代训练,得到任务模型;步骤S40,根据任务模型对输入的目标文言文向量和目标现代文向量进行处理,得到词向量、对齐词表和文言文三元组。
-
公开(公告)号:CN116701961B
公开(公告)日:2023-10-20
申请号:CN202310973916.4
申请日:2023-08-04
Applicant: 北京语言大学
IPC: G06F18/22 , G06F40/58 , G06F40/289
Abstract: 本发明涉及自然语言处理技术领域,公开了一种对文言文机器翻译结果自动评估的方法和系统,包括:构建待评价数据集;对待评价数据集进行预处理和分词处理;从待评价数据集中获取训练语料的原文和参考译文,利用待评估的文言文机器翻译模型对原文进行翻译,再将得到的目标译文与参考译文和原文对比并进行人工分析,按照原文‑参考译文‑目标译文‑人工打分的方式构建测试数据集;计算参考译文和目标译文的相似度,根据测试数据集计算目标译文的忠实度、流畅度、通俗度三个维度的分数,并计算目标译文的平均分、误差以及相关性,对目标译文进行自动评分;通过赋予忠实度和流畅度权重值,以计算总分数。
-
-
-
-
-