一种长时语音的多情绪感知定位方法及系统

    公开(公告)号:CN119252288A

    公开(公告)日:2025-01-03

    申请号:CN202411454107.3

    申请日:2024-10-17

    Abstract: 本发明公开了一种长时语音的多情绪感知定位方法及系统,涉及人工智能技术领域,将待识别的长时语音输入到已训练完成的时序多尺度空间对偶模型中,输出所述长时语音中的多个情绪状态;时序多尺度空间对偶模型的训练过程如下:构成训练数据集;将训练数据集输入到时序多尺度SSD架构中,得到低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出;将低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出进行特征融合,将融合所得到的复杂长时多情感语音时序特征输入情绪解析模块,以预测最终的多情绪标签及时间定位信息;该多情绪感知定位方法及系统增强了多情绪识别的准确性和鲁棒性。

    用于麦克风阵列测量的稀疏声源辨识方法、系统

    公开(公告)号:CN115278496B

    公开(公告)日:2024-12-31

    申请号:CN202210223139.7

    申请日:2022-03-07

    Abstract: 本发明提供一种用于麦克风阵列测量的稀疏声源辨识方法,首先利用离散傅里叶变换将信号转换到频域,构成频域声压矩阵,并在频域声压矩阵中选择信号成分,以构成声压向量,再根据预设规则选择声源重构区域,将声源重构区域划分离散网格,根据麦克风阵列中阵元的位置坐标和声压向量建立声传播模型,而后根据声传播模型建立基于广义最小最大凹函数的声学逆问题,引入辅助矩阵对声学逆问题进行变形以获取变形表达式,采用交替分裂的方式对变形表达式进行求解,以获取待求的目标声源强度,并根据目标声源强度形成声像,完成声源辨识;如此,便于对声学逆问题进行求解,提高计算效率;提高辨识精度。

    歌曲识别模型的训练方法、设备、存储介质和程序产品

    公开(公告)号:CN119207470A

    公开(公告)日:2024-12-27

    申请号:CN202411340390.7

    申请日:2024-09-25

    Inventor: 王武城 宋泽文

    Abstract: 本申请涉及一种歌曲识别模型的训练方法。方法包括:获取待改编的目标原唱歌曲的原始歌词、原始伴奏和原始人声;分别对原始歌词、原始伴奏和原始人声进行改编,获得目标原唱歌曲的至少一组改编歌词、改编伴奏和改编人声;基于原始歌词、改编歌词、原始伴奏、改编伴奏、原始人声、改编人声,确定目标原唱歌曲的至少一首改编歌曲;至少基于目标原唱歌曲和改编歌曲构建目标原唱歌曲的同歌组,至少基于目标原唱歌曲的同歌组对待训练的歌曲识别模型进行训练;已训练的歌曲识别模型,用于提取待识别的歌曲对象的第一歌曲特征;第一歌曲特征用于结合特征库中的各第二歌曲特征,确定歌曲对象对应的歌曲名称。采用本方法可提升歌曲识别准确率。

    交互信息的定位方法
    75.
    发明公开

    公开(公告)号:CN119207437A

    公开(公告)日:2024-12-27

    申请号:CN202411254118.7

    申请日:2024-09-06

    Abstract: 本申请公开了一种交互信息的定位方法。该方法应用于第一设备,包括:在接收到包括音频标签信息的输入的情况下,向第二设备发送音频获取请求,音频获取请求包括音频标签信息;接收第二设备发送的音频标签信息对应的音频数据,以及音频数据中静音帧与交互信息的目标关联信息,目标关联信息为第三设备按照交互信息的顺序和静音帧的顺序,对应生成的关联信息;获取音频数据对应的音频帧中静音帧的位置;根据目标关联信息和静音帧的位置,确定交互信息的位置。使得用户在静音时间内可以进行交互动作,提高了灵活性,而且通过静音帧与交互信息的目标关联信息,减少了人工操作步骤,降低了人工成本,提高了准确度。

    信号处理方法、装置、电子设备及介质

    公开(公告)号:CN115295024B

    公开(公告)日:2024-12-27

    申请号:CN202210377040.2

    申请日:2022-04-11

    Inventor: 康东 刘良兵

    Abstract: 本申请公开了一种信号处理方法、装置、电子设备及介质,属于通信技术领域。该信号处理方法包括:获取M帧信号的第一相位谱图,M为正整数;根据第一相位补偿函数,对该第一相位谱图进行相位补偿,得到第二相位谱图,该第二相位谱图为该M帧信号在目标频率的相位特征谱图。

    语音欺诈分析方法、装置、设备及存储介质

    公开(公告)号:CN119181380A

    公开(公告)日:2024-12-24

    申请号:CN202411243438.2

    申请日:2024-09-05

    Abstract: 本发明涉及一种语音欺诈分析方法,通过获取语音信号,通过两个独立配置的麦克风阵列分别采集不同来源的语音数据,并将这些语音数据记录到两个独立且隔离的音频通道中;利用语音活动检测技术对两个音频通道中的语音数据进行检测,识别并标记每个音频通道中的语音活动时间段,基于语音活动时间段对语音数据进行分片操作,并提取多个有效的语音片段;根据提取的有效语音片段生成对话文本,并在生成的文本中筛选出待分析的文本部分;根据待分析文本的数据特征选择预训练的欺诈分析模型,并通过分析模型确定语音数据的欺诈概率。本发明能够实现对语音信号的精准处理与分析,显著提高语音数据的质量和欺诈检测的准确性,适用于复杂的语音交互场景。

    一种基于自监督的防语音合成攻击方法和系统

    公开(公告)号:CN115171725B

    公开(公告)日:2024-12-17

    申请号:CN202210675092.8

    申请日:2022-06-15

    Abstract: 本发明提供一种基于自监督的防语音合成攻击方法,包括:获取语音数据训练样本;将语音数据训练样本输入预训练模型,完成预训练模型的自监督训练,得到初训练后的预训练模型;采用多种合成语音算法进行防语音合成攻击数据集构建;通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型并完成融合模型的训练;将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;输入语音至防语音合成攻击模型,实现语音合成检测;本发明提供的方法能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力。

    一种基于声音识别的电缆廊道工况异常监测方法

    公开(公告)号:CN119132343A

    公开(公告)日:2024-12-13

    申请号:CN202411211282.X

    申请日:2024-08-30

    Abstract: 本发明公开了一种基于声音识别的电缆廊道工况异常监测方法,包括通过采集单元采集声纹识别相关数据,包括音频数据、红外测温图像数据、烟雾传感器信号、温度数据和湿度数据;将采集的声纹识别相关数据通过数据线和交换机传输至服务器的云数据平台,通过云数据平台的声纹特征值数据边缘计算网关,对音频数据进行特征值提取;通过声纹识别算法对音频数据进行声纹数据处理;进行综合故障判定;该方法解决了现有技术由于判定条件较为单一,无法通过多模态数据进行综合判断,只能识别部分故障,故障识别率和准确率都较低的问题,具有可以通过多模态数据结合声纹打分进行综合故障判定,大幅提高电缆廊道异常或故障判断的识别率和准确率的特点。

Patent Agency Ranking