-
公开(公告)号:CN119943033A
公开(公告)日:2025-05-06
申请号:CN202510108344.2
申请日:2025-01-23
Applicant: 昆明理工大学
Abstract: 本发明涉及一种面向语音内容为中心的自监督对比表示学习方法、系统、电子设备、可读存储介质,属于语音识别领域。本发明包括步骤:获取多任务语音识别相关的数据集;多任务语音识别相关的数据集预处理;利用音调扰动和说话人扰动的语音数据进行训练预训练语言模型,并通过微调预训练语言模型最后两层实现对语音表征的优化;提取扰动语音的表征后,通过Sinkhorn‑Knopp算法对表征矩阵进行归一化;通过设计对比损失函数,优化表征的语义一致性并提升预训练语言模型对内容的聚合能力。本发明通过利用自监督微调预训练模型,有效的解决了语音内容表征和说话人表征解耦问题,提升了模型在内容相关的识别任务上的性能。
-
公开(公告)号:CN115273829B
公开(公告)日:2025-04-18
申请号:CN202210823700.5
申请日:2022-07-14
Applicant: 昆明理工大学
IPC: G10L15/06 , G10L15/02 , G10L15/26 , G06F40/289 , G06F40/30 , G06F40/58 , G06F18/25 , G06N3/0455 , G06N3/0895
Abstract: 本发明提出基于多特征融合的越南语到英语的语音到文本翻译方法,属人工智能领域。首先针对越南语音频提取Fbank特征、Wav2vec2特征和Pitch特征三种语音特征,以Fbank特征为主、Pitch特征为辅,通过交替编码有效混合得到音调感知的频谱表征,并对Wav2vec2特征进行编码得到自监督表征。基于频谱表征和自监督表征的差异性,使用交叉注意力机制融合两类特征,构建越南语‑英语语音翻译装置,该装置可针对越南语语音中的声学信息和语义信息进行有效建模,实现越南语‑英语的语音翻译。实验结果表明,构建的语音翻译装置取得了较好的翻译效果,对越南语到英语的语音翻译的BLEU值达到了39.56。
-
公开(公告)号:CN110321568B
公开(公告)日:2020-08-28
申请号:CN201910613122.0
申请日:2019-07-09
Applicant: 昆明理工大学
Abstract: 本发明涉及基于融合词性和位置信息的汉‑越卷积神经机器翻译方法,属于自然语言处理技术领域。本发明首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉‑越神经机器翻译模型再进行汉语越南语机器翻译。本发明有效的改善了汉越译文语序不一致的问题,能提升资源稀缺的汉‑越神经机器翻译性能。
-
公开(公告)号:CN118609545A
公开(公告)日:2024-09-06
申请号:CN202410677749.3
申请日:2024-05-29
Applicant: 昆明理工大学
Abstract: 本发明提供基于混合专家的多方言语音识别模型、训练方法,属自然语言处理领域。模型包括通用编码器、方言编码器、声学融合模块、注意力解码器和CTC解码器;通用编码器由12层的DialectMoe编码器块组成,负责以方言无关的方式捕获语音信息;方言编码器由6层Conformer编码器组成,从特征序列中捕获方言信息;声学融合模块用于将通用编码器和方言编码器的输出进行声学融合;注意力解码器用于根据声学融合模块的输出计算注意力损失并解码出文本;CTC解码器用于根据通用编码器的输出计算CTC损失并解码出文本。本发明所提出的模型在低资源下多方言语音识别中表现出了优异的性能。
-
公开(公告)号:CN116757184B
公开(公告)日:2023-10-20
申请号:CN202311040757.9
申请日:2023-08-18
Applicant: 昆明理工大学
IPC: G06F40/232 , G06N3/0455 , G06F18/25 , G10L15/00 , G10L15/02 , G10L15/18 , G10L15/16 , G10L15/26
Abstract: 本发明涉及融合发音特征的越南语语音识别文本纠错方法及系统,属于自然语言处理技术领域。本发明利用国际音标(IPA)对越南语发音进行表征的方法,并在模型编码阶段通过交叉注意力机制融合对应文本序列的发音特征。由于越南语一个发音对应多种语义的特点,将发音特征融入模型中扩大了搜索空间,提高了模型的错误检测和生成能力。此外,本发明使用基于非自回归结构的解码器,可以并行地生成目标序列中的所有单词,从而极大地降低解码时延。实验结果表明,在同等数据集上,该方法相比通用文本纠错模型实现约1%的词错率降低,同时节省近50%的解码时间消耗。
-
公开(公告)号:CN116757184A
公开(公告)日:2023-09-15
申请号:CN202311040757.9
申请日:2023-08-18
Applicant: 昆明理工大学
IPC: G06F40/232 , G06N3/0455 , G06F18/25 , G10L15/00 , G10L15/02 , G10L15/18 , G10L15/16 , G10L15/26
Abstract: 本发明涉及融合发音特征的越南语语音识别文本纠错方法及系统,属于自然语言处理技术领域。本发明利用国际音标(IPA)对越南语发音进行表征的方法,并在模型编码阶段通过交叉注意力机制融合对应文本序列的发音特征。由于越南语一个发音对应多种语义的特点,将发音特征融入模型中扩大了搜索空间,提高了模型的错误检测和生成能力。此外,本发明使用基于非自回归结构的解码器,可以并行地生成目标序列中的所有单词,从而极大地降低解码时延。实验结果表明,在同等数据集上,该方法相比通用文本纠错模型实现约1%的词错率降低,同时节省近50%的解码时间消耗。
-
公开(公告)号:CN115273829A
公开(公告)日:2022-11-01
申请号:CN202210823700.5
申请日:2022-07-14
Applicant: 昆明理工大学
IPC: G10L15/06 , G10L15/02 , G10L15/26 , G06F40/289 , G06F40/30 , G06F40/58 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多特征融合的越南语到英语的语音到文本翻译方法,属人工智能领域。首先针对越南语音频提取Fbank特征、Wav2vec2特征和Pitch特征三种语音特征,以Fbank特征为主、Pitch特征为辅,通过交替编码有效混合得到音调感知的频谱表征,并对Wav2vec2特征进行编码得到自监督表征。基于频谱表征和自监督表征的差异性,使用交叉注意力机制融合两类特征,构建越南语‑英语语音翻译装置,该装置可针对越南语语音中的声学信息和语义信息进行有效建模,实现越南语‑英语的语音翻译。实验结果表明,构建的语音翻译装置取得了较好的翻译效果,对越南语到英语的语音翻译的BLEU值达到了39.56。
-
公开(公告)号:CN119943055A
公开(公告)日:2025-05-06
申请号:CN202510110597.3
申请日:2025-01-23
Applicant: 昆明理工大学
IPC: G10L15/26 , G10L15/18 , G10L15/183 , G06F40/205 , G06F40/30 , G06F40/35 , G06N5/04 , G06N20/00 , G06N3/0455 , G06N3/0464 , G06N3/045
Abstract: 本发明涉及基于大语言模型语义能力的说话人日志任务优化方法,属于人工智能技术领域。本发明包括步骤:通过语音活动检测和自动语音识别模块生成带时间戳的语音转录文本,将生成的时间戳与转录文本整合,形成时间戳文本流;利用提示构造器分析时间戳文本流,生成与说话人日志任务匹配的提示词;将生成的提示词、时间戳文本流输入大语言模型,解析时间戳和文本内容,生成包含时间戳、句子和说话人标签的初步说话人日志结果;对初步说话人日志结果进行后处理,输出准确的说话人日志结果,本发明的错误率有明显降低。
-
公开(公告)号:CN117854484A
公开(公告)日:2024-04-09
申请号:CN202410159714.0
申请日:2024-02-04
Applicant: 昆明理工大学
Abstract: 本发明涉及逻辑推理知识引导强化的低资源无监督音节划分方法,属于人工智能技术领域。本发明包括步骤:首先构建老挝语音节逻辑知识库(KB),通过引入逻辑推理知识及建模智能体与知识库KB之间的交互过程,实现音节划分知识引导的无监督音节划分方法,该方法能使模型在大量无标注数据中很好的学习老挝语语言结构和规律。实验结果表明,该方法取得了很好的音节划分结果,词错率(wer)达到了1.77%,验证了方法的有效性。
-
公开(公告)号:CN117198269A
公开(公告)日:2023-12-08
申请号:CN202311150112.0
申请日:2023-09-07
Applicant: 昆明理工大学
Abstract: 本发明涉及基于多特征交互融合的老挝语无监督音素分割方法,属于自然语言处理技术领域。本发明包括步骤:收集和处理老挝语音数据集;提取自监督特征、频谱特征和音高特征;把自监督特征、频谱特征和音高特征进行融合,训练音素分割模型;基于概率对比损失原理区分相邻帧和随机干扰帧实现音素分割模型优化;在推理阶段,将音素分割模型输出向量输入到峰值检测算法中生成最终的音素边界。本发明能够更好地交互融合不同特征的优势,克服了直接相加方法的局限性,从而在整体性能上取得了更好的结果。
-
-
-
-
-
-
-
-
-