-
公开(公告)号:CN119272900A
公开(公告)日:2025-01-07
申请号:CN202411303543.0
申请日:2024-09-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种数据处理方法、数据处理装置、电子设备、存储介质和程序产品,计算机技术领域,尤其涉及人工智能技术。实现方案为:接收输入数据,其中,所述输入数据包括输入音频和输入文本;确定所述输入音频的频谱特征;利用映射层对所述频谱特征进行映射,以得到用于大语言模型的所述输入音频的嵌入表示;确定所述输入文本的嵌入表示;利用所述大语言模型对所述输入音频的嵌入表示和所述输入文本的嵌入表示进行处理,以得到用于所述输入数据的预测结果。
-
公开(公告)号:CN119252288A
公开(公告)日:2025-01-03
申请号:CN202411454107.3
申请日:2024-10-17
Applicant: 合肥中聚源智能科技有限公司
Abstract: 本发明公开了一种长时语音的多情绪感知定位方法及系统,涉及人工智能技术领域,将待识别的长时语音输入到已训练完成的时序多尺度空间对偶模型中,输出所述长时语音中的多个情绪状态;时序多尺度空间对偶模型的训练过程如下:构成训练数据集;将训练数据集输入到时序多尺度SSD架构中,得到低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出;将低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出进行特征融合,将融合所得到的复杂长时多情感语音时序特征输入情绪解析模块,以预测最终的多情绪标签及时间定位信息;该多情绪感知定位方法及系统增强了多情绪识别的准确性和鲁棒性。
-
公开(公告)号:CN115278496B
公开(公告)日:2024-12-31
申请号:CN202210223139.7
申请日:2022-03-07
Applicant: 清华大学 , 河北建投新能源有限公司
Abstract: 本发明提供一种用于麦克风阵列测量的稀疏声源辨识方法,首先利用离散傅里叶变换将信号转换到频域,构成频域声压矩阵,并在频域声压矩阵中选择信号成分,以构成声压向量,再根据预设规则选择声源重构区域,将声源重构区域划分离散网格,根据麦克风阵列中阵元的位置坐标和声压向量建立声传播模型,而后根据声传播模型建立基于广义最小最大凹函数的声学逆问题,引入辅助矩阵对声学逆问题进行变形以获取变形表达式,采用交替分裂的方式对变形表达式进行求解,以获取待求的目标声源强度,并根据目标声源强度形成声像,完成声源辨识;如此,便于对声学逆问题进行求解,提高计算效率;提高辨识精度。
-
公开(公告)号:CN119207470A
公开(公告)日:2024-12-27
申请号:CN202411340390.7
申请日:2024-09-25
Applicant: 腾讯音乐娱乐科技(深圳)有限公司
Abstract: 本申请涉及一种歌曲识别模型的训练方法。方法包括:获取待改编的目标原唱歌曲的原始歌词、原始伴奏和原始人声;分别对原始歌词、原始伴奏和原始人声进行改编,获得目标原唱歌曲的至少一组改编歌词、改编伴奏和改编人声;基于原始歌词、改编歌词、原始伴奏、改编伴奏、原始人声、改编人声,确定目标原唱歌曲的至少一首改编歌曲;至少基于目标原唱歌曲和改编歌曲构建目标原唱歌曲的同歌组,至少基于目标原唱歌曲的同歌组对待训练的歌曲识别模型进行训练;已训练的歌曲识别模型,用于提取待识别的歌曲对象的第一歌曲特征;第一歌曲特征用于结合特征库中的各第二歌曲特征,确定歌曲对象对应的歌曲名称。采用本方法可提升歌曲识别准确率。
-
公开(公告)号:CN119207437A
公开(公告)日:2024-12-27
申请号:CN202411254118.7
申请日:2024-09-06
Applicant: 中移互联网有限公司 , 中国移动通信集团有限公司
IPC: G10L19/018 , G10L25/27 , G10L25/03 , G10L25/78 , G10L25/48
Abstract: 本申请公开了一种交互信息的定位方法。该方法应用于第一设备,包括:在接收到包括音频标签信息的输入的情况下,向第二设备发送音频获取请求,音频获取请求包括音频标签信息;接收第二设备发送的音频标签信息对应的音频数据,以及音频数据中静音帧与交互信息的目标关联信息,目标关联信息为第三设备按照交互信息的顺序和静音帧的顺序,对应生成的关联信息;获取音频数据对应的音频帧中静音帧的位置;根据目标关联信息和静音帧的位置,确定交互信息的位置。使得用户在静音时间内可以进行交互动作,提高了灵活性,而且通过静音帧与交互信息的目标关联信息,减少了人工操作步骤,降低了人工成本,提高了准确度。
-
-
公开(公告)号:CN119181380A
公开(公告)日:2024-12-24
申请号:CN202411243438.2
申请日:2024-09-05
Applicant: 平安科技(深圳)有限公司
Abstract: 本发明涉及一种语音欺诈分析方法,通过获取语音信号,通过两个独立配置的麦克风阵列分别采集不同来源的语音数据,并将这些语音数据记录到两个独立且隔离的音频通道中;利用语音活动检测技术对两个音频通道中的语音数据进行检测,识别并标记每个音频通道中的语音活动时间段,基于语音活动时间段对语音数据进行分片操作,并提取多个有效的语音片段;根据提取的有效语音片段生成对话文本,并在生成的文本中筛选出待分析的文本部分;根据待分析文本的数据特征选择预训练的欺诈分析模型,并通过分析模型确定语音数据的欺诈概率。本发明能够实现对语音信号的精准处理与分析,显著提高语音数据的质量和欺诈检测的准确性,适用于复杂的语音交互场景。
-
公开(公告)号:CN117437933B
公开(公告)日:2024-12-24
申请号:CN202311284544.0
申请日:2023-10-07
Applicant: 国网青海省电力公司海东供电公司 , 国网青海省电力公司
Inventor: 冶海平 , 彭家琦 , 方保民 , 芈书亮 , 蒲寅 , 马育林 , 李永胜 , 刘军 , 张红强 , 艾斌 , 马世旭 , 何海宁 , 李云 , 马宁 , 马志彬 , 朱明慧 , 张进 , 朵向阳 , 央青卓玛 , 王伟 , 丁猛
IPC: G10L25/51 , G01R31/00 , G01H17/00 , G06N3/047 , G06N3/0455 , G06N3/084 , G06N3/088 , G06F18/2321 , G10L25/30 , G10L25/27
Abstract: 一种基于特征聚类结合生成式学习的电力变压器声纹信号故障无监督检测方法,属于电力变压器故障诊断技术领域,在变压器放置声纹信号传感器,并将信号提取出来;采用滑动窗口对提取的声纹信号进行切片得到样本集;构建DAE,提取训练后的瓶颈层;设计DBSCAN模型对瓶颈层聚类得到待训练样本X;训练VAE并将训练后的DAE中编码器部分和VAE的输入端连接得到D‑Vae模型;待测声纹信号输入训练后的D‑Vae,输出生成序列样本;比较生成序列样本和真实的特征提取序列,并使用3‑sigma法则检测故障。本发明降低声纹信号故障检测的误报率和漏报率,通过特征聚类和生成式学习实现无监督检测,提高了故障检测的准确性和鲁棒性。
-
公开(公告)号:CN115171725B
公开(公告)日:2024-12-17
申请号:CN202210675092.8
申请日:2022-06-15
Applicant: 厦门快商通科技股份有限公司
Abstract: 本发明提供一种基于自监督的防语音合成攻击方法,包括:获取语音数据训练样本;将语音数据训练样本输入预训练模型,完成预训练模型的自监督训练,得到初训练后的预训练模型;采用多种合成语音算法进行防语音合成攻击数据集构建;通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型并完成融合模型的训练;将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;输入语音至防语音合成攻击模型,实现语音合成检测;本发明提供的方法能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力。
-
公开(公告)号:CN119132343A
公开(公告)日:2024-12-13
申请号:CN202411211282.X
申请日:2024-08-30
Applicant: 中国长江电力股份有限公司
Abstract: 本发明公开了一种基于声音识别的电缆廊道工况异常监测方法,包括通过采集单元采集声纹识别相关数据,包括音频数据、红外测温图像数据、烟雾传感器信号、温度数据和湿度数据;将采集的声纹识别相关数据通过数据线和交换机传输至服务器的云数据平台,通过云数据平台的声纹特征值数据边缘计算网关,对音频数据进行特征值提取;通过声纹识别算法对音频数据进行声纹数据处理;进行综合故障判定;该方法解决了现有技术由于判定条件较为单一,无法通过多模态数据进行综合判断,只能识别部分故障,故障识别率和准确率都较低的问题,具有可以通过多模态数据结合声纹打分进行综合故障判定,大幅提高电缆廊道异常或故障判断的识别率和准确率的特点。
-
-
-
-
-
-
-
-
-