语音风格转换方法、装置、设备及存储介质

    公开(公告)号:CN119559955A

    公开(公告)日:2025-03-04

    申请号:CN202411708449.3

    申请日:2024-11-26

    Abstract: 本发明公开了一种语音风格转换方法,该方法包括获取语音数据集,语音数据集中包括源语音和目标语音;对源语音和目标语音进行特征提取,得到第一梅尔频谱和第二梅尔频谱;通过预设内容编码器对第一梅尔频谱进行内容特征提取,得到内容特征;对与内容特征对齐的音素序列进行下采样处理,得到隐藏态序列;通过预设风格编码器对第二梅尔频谱进行风格特征提取,得到风格特征;对风格特征和隐藏态序列进行对齐嵌入,得到目标风格特征;根据隐藏态序列和目标风格特征,确定语音转换结果。本发明通过对与内容特征对齐的音素序列进行下采样,解决了存在噪声帧的问题。通过对风格特征和隐藏态序列进行对齐嵌入,实现了有效转移除音色外的其他风格。

    频谱强度可调的语音合成方法、装置、计算机设备及介质

    公开(公告)号:CN119559932A

    公开(公告)日:2025-03-04

    申请号:CN202411719880.8

    申请日:2024-11-26

    Inventor: 郭洋 王健宗 程宁

    Abstract: 本发明适用于人工智能领域,尤其涉及一种频谱强度可调的语音合成方法、装置、计算机设备及介质。本发明对原始频谱中的K个共振峰的频率进行随机扰动,得到对应共振峰的扰动频率并替换其在原始频谱中的频率,得到扰动频谱,并编码得到扰动频谱特征,计算扰动频谱特征和预设的N个强度矩阵间的相关性,确定对应强度矩阵的权重,根据权重对N个强度矩阵进行加权求和,得到强度特征,对强度特征和扰动频谱特征进行特征融合,得到频谱强度特征,根据频谱强度特征、目标文本和目标语音特征得到目标语音,通过对共振峰进行扰动来破坏原始频谱中表征的说话人信息,保留有效的情感和强度信息,并计算强度矩阵的权重,提高了目标语音中情感强度的准确性。

    语音合成方法、装置、计算机设备及存储介质

    公开(公告)号:CN119559928A

    公开(公告)日:2025-03-04

    申请号:CN202411721193.X

    申请日:2024-11-27

    Abstract: 本发明涉及语音合成技术领域,公开了一种语音合成方法、装置、计算机设备及存储介质,其方法通过获取参考语音数据和待合成文本;通过预设韵律编码器对参考语音数据进行编码处理,获得韵律嵌入向量;通过预设语音识别模型对参考语音数据进行特征提取处理,获得补偿特征向量;通过预设韵律补偿编码器对补偿特征向量进行编码处理,获得韵律补偿向量;对韵律嵌入向量和韵律补偿向量进行融合,获得韵律特征向量;通过预设语音合成模型对待合成文本和韵律特征向量进行合成处理,生成目标合成语音。本发明通过韵律嵌入和韵律补偿辅助语音合成,减小了韵律信息的损失,提高了语音合成效果,在金融服务业务场景中体现智能化和人性化服务,提升用户体验。

    图像合成方法和装置、电子设备及存储介质

    公开(公告)号:CN119559335A

    公开(公告)日:2025-03-04

    申请号:CN202411773867.0

    申请日:2024-12-02

    Abstract: 本申请实施例提供了一种图像合成方法和装置、电子设备及存储介质,属于图像处理技术领域,适用于金融科技领域。该方法包括:获取参考选定表情图像和目标初始表情图像;根据参考选定表情图像对目标初始表情图像得到目标原始表情图像;根据参考选定表情图像得到参考选定表情特征;根据目标原始表情图像得到目标原始表情特征、目标原始人脸特征和目标原始头部特征;根据目标原始表情特征对参考选定表情特征得到目标对齐表情特征;根据目标原始头部特征和目标对齐表情特征得到目标对齐三维关键点特征;根据目标原始人脸特征和目标对齐三维关键点特征对目标对象得到目标选定表情图像。本申请实施例能够生成更加自然、逼真的图像。

    模型早退推理加速方法、系统、装置及存储介质

    公开(公告)号:CN119558407A

    公开(公告)日:2025-03-04

    申请号:CN202411766972.1

    申请日:2024-12-02

    Abstract: 本申请公开了一种模型早退推理加速方法、系统、装置及存储介质。方法包括获取用户输入大语言模型的问答样本数据;基于大语言模型的智能体确定子模型,根据问答样本数据,确定处理问答样本数据所需智能体的第一数量,并运行大语言模型的样本数据推理子模型对问答样本数据进行推理;提取每个特征层的输出结果并确定每个特征层输出结果时所消耗的第一累计时间,以及每个特征层输出结果时系统被占据的第一内存;根据第一数量、第一累计时间以及第一内存,确定每个特征层对应的模型早退目标层数;当连续输出相同结果的特征层的数量与模型早退目标层数相同时,控制大语言模型提早退出推理并输出目标结果。本申请可广泛应用于自然语言处理技术领域内。

    基于GBDT的数据漂移分析方法、装置、设备及存储介质

    公开(公告)号:CN119557777A

    公开(公告)日:2025-03-04

    申请号:CN202411767773.2

    申请日:2024-12-02

    Abstract: 本申请涉及数据分析技术领域,应用于金融科技业务领域,公开了一种基于GBDT的数据漂移分析方法、装置、设备及存储介质,所述方法包括根据GBDT模型预测决策树的标准路径流量;获取决策树的当前路径流量,计算当前路径流量和标准路径流量之间的全部数据漂移量;通过示性函数将全部数据漂移量归因到目标特征,生成数据漂移分析信息。通过上述方式,本申请通过预测预设决策树在目标数据集中的标准路径流量,并与当前路径流量进行比较,可以及时发现数据分布的变化,通过示性函数将数据漂移量归因到具体的特征,可以清晰地理解哪些特征导致了数据漂移,提供了模型预测的可解释性,进而提高了数据漂移的深度量化与因子层面解释的准确性。

    内容生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN119557404A

    公开(公告)日:2025-03-04

    申请号:CN202411756377.X

    申请日:2024-12-02

    Abstract: 本申请属于人工智能技术领域,涉及一种内容生成方法、装置、计算机设备及存储介质,该方法包括:采用内容生成模型对包含上下文信息的目标问题进行处理,计算模型中每个神经元在处理上下文信息时的归因分数;根据归因分数将每个神经元划分为上下文神经元和非上下文神经元;根据预设的增强力度值加大上下文神经元的权重,采用权重增强的上下文神经元和非上下文神经元对目标问题进行特征提取,得到特征向量;采用模型中的注意力头和解码器,根据特征向量生成针对目标问题的答复内容,其中,注意力头包括预先经过事实相关性评估的待干预注意力头。本申请能够有效解决内外部知识发生冲突时,内容生成的准确性较低的问题。

    数据资产推荐方法、装置、计算机设备及存储介质

    公开(公告)号:CN114093447B

    公开(公告)日:2025-03-04

    申请号:CN202111372791.7

    申请日:2021-11-17

    Abstract: 本申请实施例提供一种数据资产推荐方法、装置、计算机设备及存储介质,可应用于人工智能技术领域。该方法包括:获取第一用户的数据搜索关键字;根据用户特征集对第一用户的用户数据进行特征工程处理,得到用户特征数据;根据数据资产特征集,对M个数据资产分别进行特征工程处理,得到M个数据资产特征数据;利用数据资产推荐模型对数据搜索关键字、用户特征数据、M个数据资产特征数据进行处理,得到N个数据资产分别对应的数据资产推荐概率;根据N个数据资产分别对应的数据资产推荐概率,确定向第一用户推送的至少一个数据资产。实施本申请实施例,有助于提升数据资产推荐的准确性。

    视频质量评估方法、装置、计算机设备及存储介质

    公开(公告)号:CN119544959A

    公开(公告)日:2025-02-28

    申请号:CN202411566609.5

    申请日:2024-11-05

    Inventor: 洪凌毅

    Abstract: 本申请实施例属于图像处理领域,涉及一种视频质量评估方法、装置、计算机设备及存储介质,所述方法包括下述步骤:对待评估视频数据进行抖动缓冲处理,得到标准视频数据流;对标准视频数据流进行片段解析,得到视频流片段;基于编码树编码方式对视频流片段进行编码处理,得到视频编码单元;判断视频编码单元是否为非跳过模式;若所述视频编码单元为非跳过模式,则根据预设的图像序列集参数计算所述视频编码单元的单元量化参数平均值作为视频质量分数;将所述视频质量分数和预设的视频质量阈值进行对比,得到视频质量结果。本申请能够实现对待评估视频数据的质量进行无参考的准确评估,并提高待评估视频数据的评估效率和准确性。

    基于知识库的语音应答方法、装置、设备及存储介质

    公开(公告)号:CN119541497A

    公开(公告)日:2025-02-28

    申请号:CN202411522522.8

    申请日:2024-10-28

    Abstract: 本发明涉及人工智能技术中的智能语音技术领域,可应用于语音交互领域,本发明公开了基于知识库的语音应答方法、装置、设备及存储介质,方法包括:获取目标语音,将目标语音转换为文本内容;获取文本内容中的提问语句,对提问语句进行编码,生成句子向量;选取存储目标用户群体数据的知识库作为目标知识库,在目标知识库中,通过句子向量,获取答案信息;选取答案信息作为提示词模板,获取目标语音的情感信息;将提示词模板、文本内容、情感信息输入预设的大语言模型,获取大语言模型生成的回复文本;处理目标说话人的声音样本和回复文本,生成目标说话人的应答语音,播放应答语音。本发明有利于提高目标说话人的应答语音的获取效率。

Patent Agency Ranking