-
公开(公告)号:CN103473380A
公开(公告)日:2013-12-25
申请号:CN201310462797.2
申请日:2013-09-30
Applicant: 南京大学
IPC: G06F17/30
Abstract: 本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。
-
公开(公告)号:CN101329666A
公开(公告)日:2008-12-24
申请号:CN200810122650.8
申请日:2008-06-18
Applicant: 南京大学
Abstract: 本发明公开了一种基于语料库及树型结构模式匹配的汉语句法自动分析方法,该方法在对汉语标注语料库进行深度分析与完全切分的基础上,根据从语料库中抽取出的句法模式和相应的语义搭配关系,与待处理句进行模式匹配与模式转换处理,并经过语义排歧处理,最后得到最优句法分析结果。本发明的句法自动分析系统包括句法树库中句法模式的抽取、存储、调用模块,句型统计模块、句法模式匹配模块,近似模式局部转换模块,语义排歧模块。实验证明本发明的汉语句法自动分析方法与传统的句法分析相比,注重句法模式的整体匹配与局部转换相结合,处理的粒度大,效率高,平均准确率和召回率有约10%的提高。
-
公开(公告)号:CN118313380A
公开(公告)日:2024-07-09
申请号:CN202410418238.X
申请日:2024-04-09
Applicant: 南京大学
IPC: G06F40/295 , G06F16/33 , G06N3/0455
Abstract: 本发明公开了一种学习文本中事实性知识的模型训练方法,包括以下步骤:步骤1,根据先验知识从原始训练文本语料数据中选择高置信度的文本信源集合,获得可靠信源文本;步骤2,抽取可靠信源文本中的事实性知识,生成文本支持数据;步骤3,结合文本支持数据和原始训练文本语料数据训练生成式语言模型。该方法能够在文本语料训练过程中提升模型对可靠文本信源的学习效率和学习效果,减少为训练文本语料进行训练排序的人工成本,减少设计持续学习方案所需的人工成本;能够在训练过程中为语言模型注入更多可靠的事实性知识,不局限知识的表述方式,提升生成式语言模型的可靠性。
-
公开(公告)号:CN117194640A
公开(公告)日:2023-12-08
申请号:CN202311221966.3
申请日:2023-09-21
Applicant: 南京大学 , OPPO广东移动通信有限公司
IPC: G06F16/332 , G06N3/094 , G06N3/0475
Abstract: 本发明公开了一种基于生成对抗网络的用户模拟器构建方法,应用于对话系统,所述用户模拟器包括生成对抗网络,包括:从对话系统中获取用户和对话机器人之间的对话内容;将所述对话内容输入生成对抗网络进行训练,获得训练后的生成器和评估判别器,所述生成器用于基于用户的历史对话生成回复,所述评估判别器用于区分真实回复和生成回复,以及对生成回复的质量进行评估。该方法中生成器生成的回复更加真实,评估判别器还能对生成器生成的回复进行质量评估,以便诊断对话系统,实现对对话系统的动态评价。
-
公开(公告)号:CN116227470A
公开(公告)日:2023-06-06
申请号:CN202310150086.5
申请日:2023-02-22
Applicant: 南京大学
IPC: G06F40/232 , G06N3/084 , G06N3/0455
Abstract: 本发明提出了一种基于层间自注意力的中文拼写纠错方法,其利用n元语法令牌作为查询,对BERT的不同层上的字符表示进行自注意力查询并加权融合,并利用字符的最终表示进行拼写纠错任务。通过引入BERT编码器中不同层次的抽象知识,拼写纠错模型在不同类型的错误上有着自适应的信息补充,从而提高模型在不同类型错误上的纠正准确率。
-
公开(公告)号:CN114564569A
公开(公告)日:2022-05-31
申请号:CN202210198697.2
申请日:2022-03-02
Applicant: 南京大学
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种用于小样本意图识别的文本数据优化方法,包括以下步骤:步骤1,构建训练文本数据集;步骤2,对训练任务按照具有的意图数阶梯式地划分级别;步骤3,采样一个批次的小样本意图识别训练样本;步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;步骤5,判断训练是否终止;步骤6,结束模型训练。本发明可以将并行化训练元学习模型应用在现实场景中小样本意图识别的训练任务意图数不一致的情况。
-
公开(公告)号:CN114492332A
公开(公告)日:2022-05-13
申请号:CN202210101812.X
申请日:2022-01-27
Applicant: 南京大学
IPC: G06F40/166 , G06F40/56
Abstract: 本发明涉及一种基于变分自编码器隐变量操纵的受控文本生成方法,包括:训练一个用于文本生成的变分自编码器;计算变分自编码器的隐变量与生成文本的属性之间的关联;通过操纵变分自编码器的隐变量生成具有指定属性的文本。本发明提供的受控文本生成方法可以只使用一个训练好的变分自编码器模型控制生成文本的多种不同属性,并且可以使用具有不同属性的文本共同提升生成文本的质量。
-
公开(公告)号:CN111985251A
公开(公告)日:2020-11-24
申请号:CN201910422427.3
申请日:2019-05-21
Applicant: 南京大学
Abstract: 本公开涉及一种翻译质量测评方法及装置,所述方法包括:接收待测评的目标语言语句和对应的源语言语句;获取所述源语言语句的特征信息和所述目标语言语句的特征信息;对所述源语言语句的特征信息和所述目标语言语句的特征信息进行处理,得到测评信息。利用本公开各实施例,可以提高翻译质量测评结果的可靠性。
-
公开(公告)号:CN108845994B
公开(公告)日:2020-05-01
申请号:CN201810582125.8
申请日:2018-06-07
Applicant: 南京大学
IPC: G06F40/58
Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。
-
公开(公告)号:CN107133223B
公开(公告)日:2019-06-25
申请号:CN201710262369.3
申请日:2017-04-20
Applicant: 南京大学
Abstract: 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用GIZA++获取源端到目标端的词对齐信息,根据词对齐信息将参考译文切分成短语块,利用源端词序对每一个参考译文构建子图,将若干个子图合并,最终可将并列的若干个参考译文表示成一个参考译文图,将不同的参考译文联系起来,获得更多的信息,最终利用源语言将待评价译文和参考译文图之间联系起来,从图中选出一条与待评价译文最接近的路径进行最终的译文质量评价。
-
-
-
-
-
-
-
-
-