-
公开(公告)号:CN119741908A
公开(公告)日:2025-04-01
申请号:CN202411970042.8
申请日:2024-12-30
Applicant: 安徽讯飞寰语科技有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,所述方法包括:提取待合成文本的文本特征;基于目标说话人的标识,在说话人码本中查找与目标说话人匹配的目标语音编码;基于文本特征以及目标语音编码,对待合成文本进行语音合成,得到合成语音;说话人码本存储有不同说话人的语音编码,各说话人的语音编码是从各说话人的多个基础语音编码中选取的部分编码,且所有说话人对应部分编码的总数大于等于说话人总数。本发明提供的语音合成方法、装置、电子设备和存储介质,在保证语音合成精度的基础上,显著降低了模型冗余度,且提高了模型对参数的利用率。
-
公开(公告)号:CN119416823A
公开(公告)日:2025-02-11
申请号:CN202510032940.7
申请日:2025-01-09
Applicant: 安徽讯飞寰语科技有限公司
IPC: G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种大模型推理方法、装置、设备及程序产品,涉及人工智能技术领域,本申请在部署时选择稀疏性大模型作为待部署的大模型,进一步将其拆分为若干个子模型,并存储到终端的内存中。在执行大模型推理任务时,可以根据当前推理任务所需的目标子模型,从内存中仅加载目标子模型至推理芯片执行推理任务,无需加载全部的稀疏性大模型,极大降低了所需加载模型参数的数量,使得访存量降低,推理耗时也降低,有效缓解了内存墙问题。
-
公开(公告)号:CN119274545A
公开(公告)日:2025-01-07
申请号:CN202411123309.X
申请日:2024-08-15
Applicant: 安徽讯飞寰语科技有限公司
Abstract: 本申请提出一种语音识别方法、装置、设备、介质及产品,该方法通过获取待进行语音识别的原始音频数据,原始音频数据中包括语音数据和非语音数据;确定原始音频数据中的音频结构信息,音频结构信息表征原始音频数据中不同类别的音频;不同类别的音频包括语音音频和至少一种非语音音频,至少一种非语音音频是多种不同类型的非语音音频中的至少一种;基于原始音频数据中的音频结构信息,对原始音频数据中的语音数据和非语音数据进行区分,并对语音数据进行语音识别,得到语音识别结果。本申请通过音频结构信息对各种类型的非语音数据进行精确区分,能够准确地区分语音和非语音,进而提高语音识别准确度。
-
公开(公告)号:CN116705010A
公开(公告)日:2023-09-05
申请号:CN202310880009.5
申请日:2023-07-17
Applicant: 安徽讯飞寰语科技有限公司
IPC: G10L15/08 , G10L15/183 , G10L15/22
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,涉及语音识别技术领域,该方法包括:将采集的待识别语音输入声学模型,得到声学模型输出的第一文本;在检测到第一文本中包括实体词标记符时,将第一文本中的实体词部分输入实体语言模型,得到实体语言模型输出的实体词部分的第一置信度,并将第一文本输入通用语言模型,得到通用语言模型输出的第一文本的第二置信度;实体词部分包括实体词标记符和目标实体词;基于第一置信度和第二置信度对目标实体词进行激励,得到待识别语音的语音识别结果。本发明提供的技术方案能够避免语音识别过程中实体词的误触发。
-
公开(公告)号:CN115662410A
公开(公告)日:2023-01-31
申请号:CN202210970418.X
申请日:2022-08-12
Applicant: 安徽讯飞寰语科技有限公司
Abstract: 本发明公开了一种车机语音交互方法、车机,车机语音交互方法包括以下步骤:获取待识别的语音信号;当车机处于免唤醒场景时,采用语音模型中的免唤醒有限状态接收器FSA解码方式对语音信号进行解码;当车机处于非免唤醒场景时,采用语音模型中的加权有限状态转换器WFST解码方式和非免唤醒有限状态接收器FSA解码方式对语音信号进行解码。由此,该车机语音交互方法,通过车机分别在免唤醒场景和非免唤醒场景的独立解码,减少了免唤醒场景与非免唤醒场景之间的串扰。
-
公开(公告)号:CN114220444A
公开(公告)日:2022-03-22
申请号:CN202111255706.9
申请日:2021-10-27
Applicant: 安徽讯飞寰语科技有限公司
Abstract: 本发明提供一种语音解码方法、装置、电子设备和存储介质,其中方法包括:确定待解码语音;基于待解码语音中,上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况,确定当前解码路径,语音解码模型包括多个解码网络;基于待解码语音中的当前语音帧,在当前解码路径所处解码网络中,对当前解码路径进行扩展,得到当前语音帧的候选解码路径,并将当前语音帧的下一语音帧更新为当前语音帧,直至当前语音帧为待解码语音的尾帧,利用上一语音帧的候选解码路径所处解码网络的解码情况选取路径,降低了最优解码路径被错误筛除的可能性,提高了解码的速度和精度,解决了传统的语音解码方案对内存的占用较多的问题,减少了非必要的内存占用。
-
公开(公告)号:CN119889272A
公开(公告)日:2025-04-25
申请号:CN202411872207.8
申请日:2024-12-18
Applicant: 安徽讯飞寰语科技有限公司
IPC: G10L13/02 , G10L13/047
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:获取待合成文本的发音特征序列;基于教师CFM模型对发音特征序列执行第一步数的推理解码,得到第一特征序列,并基于学生CFM模型对第一特征序列执行第二步数的推理解码,得到第二特征序列,以及基于教师CFM模型对第二特征序列执行第三步数的推理解码,得到第三特征序列作为声学特征序列;其中,第一步数、第二步数、第三步数之和为目标步数,学生CFM模型的参数量少于教师CFM模型;基于声码器对声学特征序列进行重构,得到合成语音信号。上述方案,能够在尽可能地确保合成语音的自然度前提下,尽可能地减少计算资源并降低时间成本。
-
公开(公告)号:CN119785806A
公开(公告)日:2025-04-08
申请号:CN202411852007.6
申请日:2024-12-16
Applicant: 安徽讯飞寰语科技有限公司
IPC: G10L19/032
Abstract: 本发明提供一种音频压缩方法及装置,所述方法包括:基于音频压缩模型,应用待压缩音频片段的复杂度,对待压缩音频片段进行压缩,得到压缩音频;音频压缩模型包括多个量化层,音频压缩模型用于对待压缩音频片段进行编码得到编码特征后,采用目标量化层对编码特征进行量化,并对量化后的编码特征进行解码得到解码特征,基于解码特征确定压缩音频;目标量化层是基于待压缩音频片段的复杂度从多个量化层中选取的至少一个量化层。本发明中的音频压缩模型可以在保证音质的前提下灵活地调整压缩率,从而使得音频压缩模型能够适应不同复杂度的音频片段,并实现音质和压缩率之间的最佳平衡。
-
公开(公告)号:CN119724150A
公开(公告)日:2025-03-28
申请号:CN202411828330.X
申请日:2024-12-12
Applicant: 安徽讯飞寰语科技有限公司
Abstract: 本发明提供一种语音合成方法、系统、电子设备及存储介质,其中方法包括:获取目标语音合成指令和目标语音合成文本;根据所述目标语音合成指令的标注信息,对所述目标语音合成指令进行结构化处理,得到结构化指令;所述标注信息包括分词信息、命名实体信息和音素信息;根据所述结构化指令和所述目标语音合成文本进行语音合成,得到合成语音。本发明实现通过增强对自由指令中隐含信息的理解和解析能力,以动态生成相应的语音合成参数,从而生成更符合用户预期的合成语音,有效增强了合成语音的准确性和一致性。
-
公开(公告)号:CN119415277A
公开(公告)日:2025-02-11
申请号:CN202510032933.7
申请日:2025-01-09
Applicant: 安徽讯飞寰语科技有限公司
IPC: G06F9/50 , G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种异构平台的大模型部署方法、装置、设备及程序产品,涉及人工智能技术领域,本申请将待部署的大模型拆分为若干个子模型,根据每个子模型包含的算子类型及算子计算量,结合异构平台上各类型芯片的算子支持情况,确定每个子模型所要部署的目标芯片,并根据目标芯片的量化支持情况,确定每个子模型的量化策略,按照该量化策略对子模型进行量化,将量化后子模型及量化策略生成可部署的子模型,以便于部署到异构平台上对应的目标芯片中,实现大模型的自动化部署。本申请能够在大模型部署过程自动选择子模型所要部署的目标芯片,自动选择量化策略,相比于人工设置部署方案的方法,能够大幅提高部署效率,降低大模型端侧部署难度。
-
-
-
-
-
-
-
-
-