-
公开(公告)号:CN119905085A
公开(公告)日:2025-04-29
申请号:CN202510391421.X
申请日:2025-03-31
Applicant: 龙岩学院
IPC: G10L15/00 , G10L15/01 , G10L15/07 , G10L15/16 , G10L15/183 , G10L15/25 , G10L25/63 , G10L21/10 , G06V40/16 , G06V40/70
Abstract: 本发明公开了基于深度学习的英语口语情感智能交互教学系统及方法,涉及语音评测领域。该系统包括环境检测与评估模块、阈值对比模块、音视频收集与处理模块、优化模块和建议输出模块;将环境检测与评估模块中得到的英语口语智能交互环境评估系数进行阈值范围对比和图像的参考阈值对比,将音视频收集与处理模块中得到的英语口语智能交互音频的失爆判断评估系数进行阈值对比。本发明通过对用户输入的英语口语智能交互音频数据进行评估,得到英语口语智能交互音频的失爆判断评估系数,进而根据英语口语智能交互音频的失爆判断评估系数输出文本、音频和可视化的英语口语纠错建议,解决了现有技术中,判断上下文协同发音变化中失爆的准确性不足的问题。
-
公开(公告)号:CN119889283A
公开(公告)日:2025-04-25
申请号:CN202510101817.6
申请日:2025-01-22
Applicant: 厦门大学
IPC: G10L13/08 , G10L15/04 , G10L15/02 , G10L15/00 , G10L15/16 , G10L25/30 , G10L25/45 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06F40/117 , G06F40/58
Abstract: 一种基于语音到单元的端到端闽南语翻译、合成方法及系统,涉及计算机技术。翻译方法,从用户端获取闽南语音频数据,经重采样和分割,音频片段预处理,位置编码后输入Transformer网络的编码器编码,编码后的低维表征与解码器输出一同送入解码器自回归解码得翻译序列,剔除特殊标记符号得中文文本翻译结果。合成方法,从用户端获取中文文本,过滤部分标点符号,获取词嵌入与位置嵌入后经Transformer编码器编码得中间隐变量,解码器解码得初始梅尔频谱输出,经后处理修正得到梅尔频谱作为声学特征,通过微调的Hifi‑Gan声码器生成闽南语音频。提高闽南语语音翻译准确度,合成闽南语语音生动流畅,适用于多场合。
-
公开(公告)号:CN119865668A
公开(公告)日:2025-04-22
申请号:CN202411984151.5
申请日:2024-12-31
Applicant: 苏州小同科技有限公司
IPC: H04N21/488 , H04N21/43 , H04N21/435 , H04N21/854 , G10L15/00 , G10L15/26 , G10L15/183 , G06F18/22 , G06F40/211 , G06F40/295 , G06F40/30 , G06N3/0464 , G06N3/044
Abstract: 本发明公开了一种基于语音内容推测与修复字幕的智能系统,包括以下模块:语音识别模块:将输入的语音信号转换为文本,语音识别模块采用深度学习技术,能够识别不同语言和口音的语音,并将其转换为准确的文本;字幕关联模块:将预处理后的语音文本与原有字幕进行关联;字幕推测模块:根据语音内容,利用自然语言处理技术推测字幕内容;本发明能够自动识别语音内容,并与现有的字幕进行匹配,识别不一致之处,并提供自动或半自动的修复建议,本系统的应用将极大地提高字幕的准确性和观看体验,降低人工审核成本,具有广泛的市场应用前景。
-
公开(公告)号:CN119865480A
公开(公告)日:2025-04-22
申请号:CN202510074299.3
申请日:2025-01-16
Applicant: 广州三星通信技术研究有限公司 , 三星电子株式会社
Abstract: 本公开关于多媒体数据的传输方法、装置、电子设备、存储介质和计算机程序产品,该方法包括:响应于接收到开启多媒体数据翻译的指令,获取第一终端中目标多媒体数据;在第一终端具备翻译能力的情况下,针对目标多媒体数据进行翻译,获得翻译内容,并向第二终端发送翻译内容以用于在第二终端上进行显示。这样,在多用户沟通交流场景下,如果多个用户彼此之间的语言不通,可启用AI翻译流转功能,使得在通过主(Host)设备进行沟通交流的同时,能够在需要翻译的客户(Client)设备上显示相应的翻译内容。这样,需要翻译的用户就可以及时了解沟通交流的具体内容,进而可以保证沟通交流进程流畅推进,从而可以提高沟通交流的效率。
-
公开(公告)号:CN119808795A
公开(公告)日:2025-04-11
申请号:CN202411848481.1
申请日:2024-12-16
Applicant: 深圳市丰利源节能科技有限公司
IPC: G06F40/40 , G10L15/26 , G10L15/00 , G06F40/284
Abstract: 本发明涉及通话翻译技术领域,并具体公开了一种实时语音通话翻译装置及通话翻译方法,其装置包括:断句标志识别模块,用于实时判断最新接收到的语音数据中是否存在断句标志作为实时断句标志识别结果;输入语句获取模块,用于当实时断句标志识别结果为最新接收到的语音数据中存在断句标志时,基于最新接收到的语音数据中最新识别出的断句标志,获取最新接收到的输入语种的输入语句文本;语句文本翻译模块,用于基于目标翻译语种对最新接收到的输入语种的输入语句文本进行翻译,获得实时语音通话翻译结果;用以实现对最新接收到的语音数据的及时准确翻译。
-
公开(公告)号:CN119763547A
公开(公告)日:2025-04-04
申请号:CN202411955158.4
申请日:2024-12-27
Applicant: 安徽讯飞寰语科技有限公司
Inventor: 史永方
Abstract: 本申请提出一种语音合成方法、语音合成模型的训练方法、电子设备及计算机程序产品。可以将目标文本的文本特征和语音需求信息输入语音合成模型,生成通过目标方言朗读目标文本的合成语音。其中,语音合成模型包括:编码模块、方言判别模块以及解码模块,该方言判别模块可以向编码模块输出判决信息,进而借助判决信息对编码模块输出的初始先验信息进行校正或提升初始先验信息的质量,得到更加具备方言特色的目标先验信息。最终解码模块基于该目标先验信息生成合成语音,使得合成语音的方言特色更加显著,提升了合成方言的效果。
-
公开(公告)号:CN119759466A
公开(公告)日:2025-04-04
申请号:CN202411815385.7
申请日:2024-12-10
Applicant: 软通智慧数据科技(深圳)有限公司
IPC: G06F9/451 , G06F18/214 , G06F18/22 , G10L15/02 , G10L15/00
Abstract: 本发明公开了一种页面交互方法、装置、电子设备及存储介质。该方法包括:响应于目标界面关联的语音输入信息,通过语音识别模型根据语音输入信息确定待执行信息;确定候选功能模块中与待执行信息匹配的目标功能模块,所述候选功能模块包含功能描述信息和功能参数信息;根据目标功能模块对所述目标任务执行相应操作,得到待执行信息的执行结果;将所述执行结果返回至目标界面进行可视化展示。本申请的技术方案,将获取的语音输入信息通过语音识别模型得到待执行信息,确定执行待执行信息的目标功能模块并根据目标功能模块执行指定操作,将执行结果返回至目标界面进行可视化展示,解决了页面内容查找困难的问题,实现了页面交互的快速操作响应。
-
公开(公告)号:CN119741925A
公开(公告)日:2025-04-01
申请号:CN202510254372.5
申请日:2025-03-05
Applicant: 珠海市钛芯动力科技有限公司
IPC: G10L15/22 , G10L15/00 , G10L15/06 , G10L15/16 , G10L15/18 , G10L15/26 , H01R13/66 , G06F40/284 , G06F40/30 , G06F16/35
Abstract: 本发明实施例提供一种基于自然语言处理的多插孔语音控制方法及其系统,属于语音控制技术领域。该方法包括:获得初始语音信息在第一语言类型下的相关语音信息;根据预设语音信息和相关语音信息进行语音聚类获得相似语音信息;根据相似语音信息从语音映射表中获得理想语音信息;根据理想语音信息和相关语音信息进行语音替换获得目标语音信息;对目标语音信息进行语音识别获得初始文本信息;对初始文本信息进行文本纠正获得目标文本信息;对目标文本信息进行关键词识别获得目标关键词和目标关键词的目标分布信息;根据目标关键词和目标分布信息对目标文本信息进行语义分类获得目标语义类型;根据目标语义类型对多插孔插座进行控制获得目标控制结果。
-
公开(公告)号:CN119724158A
公开(公告)日:2025-03-28
申请号:CN202411937490.8
申请日:2024-12-26
Applicant: 思必驰科技股份有限公司
Abstract: 本申请公开一种多语言语音识别方法,多语言语音识别模型包括:编码器、语种分类模型、CTC模块和解码器;所述方法包括:获取待识别音频的声学特征输入至所述编码器得到包含了声学特征局部信息和声学特征全局信息的编码器输出结果;语种分类模型对所述编码器输出结果进行预设处理得到语种分类结果;CTC模块结合加权有限状态转换机,通过前缀束搜索算法将编码器输出结果映射到流式nbest识别结果;解码器根据流式nbest识别结果对编码器输出结果进行重打分。本申请多语言语音识别模型仅共享了底层的编码器,顶层的语种分类模型、CTC模块和解码器独立。通过共享的底层参数和重打分流程减少语音识别的混淆不同语种的同音字问题,并提升语种分类准确度。
-
公开(公告)号:CN119724157A
公开(公告)日:2025-03-28
申请号:CN202411892222.9
申请日:2024-12-20
Applicant: 华夏数智智慧校园规划设计院(深圳)有限公司
IPC: G10L15/00 , G10L15/06 , G10L15/16 , G10L15/18 , G10L15/26 , G10L21/0272 , G10L25/63 , G06V40/16 , G06F18/25 , G06F18/214 , G06F18/23 , G06F18/24
Abstract: 本发明公开了基于人工智能辅助谈话场景的语言识别方法及系统,属于语言识别技术领域,其方法具体包括:利用传感器采集音频信号和视频数据,实时对音频信号和视频数据进行噪声过滤,对噪声过滤后的音频信号进行预处理,对预处理后的音频信号中的语音进行分离,和谈话者进行分割,提取每个谈话者的语音特征,并根据语音特征进行语音解码,输出最终的文本,根据输出最终的文本和语境,分析谈话者的意图;通过摄像头捕捉谈话者的面部表情和肢体语言,并结合语音信号中的音调和情感信息,能够更加全面地理解对话的真实语义。
-
-
-
-
-
-
-
-
-