一种实时语音通话翻译装置及通话翻译方法

    公开(公告)号:CN119808795A

    公开(公告)日:2025-04-11

    申请号:CN202411848481.1

    申请日:2024-12-16

    Inventor: 孔庆丰 孔繁松

    Abstract: 本发明涉及通话翻译技术领域,并具体公开了一种实时语音通话翻译装置及通话翻译方法,其装置包括:断句标志识别模块,用于实时判断最新接收到的语音数据中是否存在断句标志作为实时断句标志识别结果;输入语句获取模块,用于当实时断句标志识别结果为最新接收到的语音数据中存在断句标志时,基于最新接收到的语音数据中最新识别出的断句标志,获取最新接收到的输入语种的输入语句文本;语句文本翻译模块,用于基于目标翻译语种对最新接收到的输入语种的输入语句文本进行翻译,获得实时语音通话翻译结果;用以实现对最新接收到的语音数据的及时准确翻译。

    语音合成方法、语音合成模型的训练方法、电子设备及计算机程序产品

    公开(公告)号:CN119763547A

    公开(公告)日:2025-04-04

    申请号:CN202411955158.4

    申请日:2024-12-27

    Inventor: 史永方

    Abstract: 本申请提出一种语音合成方法、语音合成模型的训练方法、电子设备及计算机程序产品。可以将目标文本的文本特征和语音需求信息输入语音合成模型,生成通过目标方言朗读目标文本的合成语音。其中,语音合成模型包括:编码模块、方言判别模块以及解码模块,该方言判别模块可以向编码模块输出判决信息,进而借助判决信息对编码模块输出的初始先验信息进行校正或提升初始先验信息的质量,得到更加具备方言特色的目标先验信息。最终解码模块基于该目标先验信息生成合成语音,使得合成语音的方言特色更加显著,提升了合成方言的效果。

    一种页面交互方法、装置、设备及存储介质

    公开(公告)号:CN119759466A

    公开(公告)日:2025-04-04

    申请号:CN202411815385.7

    申请日:2024-12-10

    Abstract: 本发明公开了一种页面交互方法、装置、电子设备及存储介质。该方法包括:响应于目标界面关联的语音输入信息,通过语音识别模型根据语音输入信息确定待执行信息;确定候选功能模块中与待执行信息匹配的目标功能模块,所述候选功能模块包含功能描述信息和功能参数信息;根据目标功能模块对所述目标任务执行相应操作,得到待执行信息的执行结果;将所述执行结果返回至目标界面进行可视化展示。本申请的技术方案,将获取的语音输入信息通过语音识别模型得到待执行信息,确定执行待执行信息的目标功能模块并根据目标功能模块执行指定操作,将执行结果返回至目标界面进行可视化展示,解决了页面内容查找困难的问题,实现了页面交互的快速操作响应。

    一种基于自然语言处理的多插孔语音控制方法及其系统

    公开(公告)号:CN119741925A

    公开(公告)日:2025-04-01

    申请号:CN202510254372.5

    申请日:2025-03-05

    Inventor: 王桂明 许泽彬

    Abstract: 本发明实施例提供一种基于自然语言处理的多插孔语音控制方法及其系统,属于语音控制技术领域。该方法包括:获得初始语音信息在第一语言类型下的相关语音信息;根据预设语音信息和相关语音信息进行语音聚类获得相似语音信息;根据相似语音信息从语音映射表中获得理想语音信息;根据理想语音信息和相关语音信息进行语音替换获得目标语音信息;对目标语音信息进行语音识别获得初始文本信息;对初始文本信息进行文本纠正获得目标文本信息;对目标文本信息进行关键词识别获得目标关键词和目标关键词的目标分布信息;根据目标关键词和目标分布信息对目标文本信息进行语义分类获得目标语义类型;根据目标语义类型对多插孔插座进行控制获得目标控制结果。

    多语言语音识别方法、模型、电子设备、存储介质和程序产品

    公开(公告)号:CN119724158A

    公开(公告)日:2025-03-28

    申请号:CN202411937490.8

    申请日:2024-12-26

    Inventor: 沈之杰 李旭 樊帅

    Abstract: 本申请公开一种多语言语音识别方法,多语言语音识别模型包括:编码器、语种分类模型、CTC模块和解码器;所述方法包括:获取待识别音频的声学特征输入至所述编码器得到包含了声学特征局部信息和声学特征全局信息的编码器输出结果;语种分类模型对所述编码器输出结果进行预设处理得到语种分类结果;CTC模块结合加权有限状态转换机,通过前缀束搜索算法将编码器输出结果映射到流式nbest识别结果;解码器根据流式nbest识别结果对编码器输出结果进行重打分。本申请多语言语音识别模型仅共享了底层的编码器,顶层的语种分类模型、CTC模块和解码器独立。通过共享的底层参数和重打分流程减少语音识别的混淆不同语种的同音字问题,并提升语种分类准确度。

Patent Agency Ranking