-
公开(公告)号:CN114648996A
公开(公告)日:2022-06-21
申请号:CN202011517339.0
申请日:2020-12-21
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 本申请公开了一种音频数据处理方法和装置、语音交互方法、设备和芯片、音箱、电子设备及存储介质。该方法包括:获取当前麦克风信号和参考信号;使用空间传递函数和回声路径数据将当前麦克风信号构建为历史麦克风信号以及当前的参考信号的函数形式;确定其相关性并分离一个或多个音频源发出的源信号。本申请实施例通过获取麦克风信号和参考信号并且在历史麦克风信号中包含源信号和参考信号的历史信息,从而能够直接使用盲源分离的计算框架来对原始音频进行回声消除、去混响以及盲源分离这三种处理,消除了现有技术中需要使用不同的模块/框架来分别进行上述处理带来的优化冲突的问题,从而可以进一步提高音频处理优化的效果。
-
公开(公告)号:CN110875056A
公开(公告)日:2020-03-10
申请号:CN201811004661.6
申请日:2018-08-30
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L25/48 , G10L25/78 , G10L21/0208 , H04N5/76
Abstract: 本申请公开了语音转录设备、系统和方法,以及电子设备。其中,语音转录设备,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号发送至语音转录服务器,以使得所述服务器对所述目标话音信号进行语音转录。采用这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。
-
公开(公告)号:CN110858485A
公开(公告)日:2020-03-03
申请号:CN201810967670.9
申请日:2018-08-23
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216
Abstract: 本公开提出了一种语音增强方法、装置、设备及存储介质。将麦克风阵列中两个麦克风的输出相减,以得到一阶差分输出;将所述一阶差分输出与预定阈值进行比较;基于比较结果,确定各个频点的隐蔽值,其中,所述隐蔽值用于表征带噪语音中噪声对语音的遮蔽情况;以及基于所述隐蔽值进行语音增强。本公开的基于差分mask实现的语音增强方案几乎没有延迟,且不受定向人声干扰的影响,可以有效提高地铁购票机等嘈杂场景中语音识别成功率。
-
公开(公告)号:CN113744732B
公开(公告)日:2024-11-05
申请号:CN202010481877.2
申请日:2020-05-28
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/02 , G10L21/0208 , G10L25/84
Abstract: 本申请公开了设备唤醒相关系统、方法、装置及设备。其中,所述设备唤醒方法包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。采用这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
-
公开(公告)号:CN110930991A
公开(公告)日:2020-03-27
申请号:CN201811000219.6
申请日:2018-08-30
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L15/06
Abstract: 本发明公开了一种远场语音识别模型训练方法和装置,以及一种远场语音识别方法和装置。其中远场语音识别模型训练方法包括:将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分和降噪处理,分别获得第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据,将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。采用本申请提供的训练方法获得的远场语音识别模型,能够解决人机交互过程中,距离较远造成的语音识别率较低的问题,提高复杂环境下的远场语音识别的效率和准确率。
-
公开(公告)号:CN110858485B
公开(公告)日:2023-06-30
申请号:CN201810967670.9
申请日:2018-08-23
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216
Abstract: 本公开提出了一种语音增强方法、装置、设备及存储介质。将麦克风阵列中两个麦克风的输出相减,以得到一阶差分输出;将所述一阶差分输出与预定阈值进行比较;基于比较结果,确定各个频点的隐蔽值,其中,所述隐蔽值用于表征带噪语音中噪声对语音的遮蔽情况;以及基于所述隐蔽值进行语音增强。本公开的基于差分mask实现的语音增强方案几乎没有延迟,且不受定向人声干扰的影响,可以有效提高地铁购票机等嘈杂场景中语音识别成功率。
-
公开(公告)号:CN114648999A
公开(公告)日:2022-06-21
申请号:CN202011508186.3
申请日:2020-12-18
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216
Abstract: 本申请涉及一种语音增强、交互方法、装置、程序产品及设备,其中,方法包括:在第一时间段中,采集麦克风信号,并根据麦克风信号,提取噪音特征;在间隔第二时间段后,根据噪音特征更新波束形成器;使用更新后的波束形成器,对后续的麦克风信号进行语音增强处理。本发明实施例利用在设备移动过程中,设备自身噪音信号特征变化较小,而外部的语音信号特征由于声源位置的变化而发生较大变化的特点,通过在噪音特征采集与波束形成器更新之间设置时间间隔的方式,来避免了有用的语音成分被消掉,从而提升语音增强的性能。
-
公开(公告)号:CN114333867A
公开(公告)日:2022-04-12
申请号:CN202011073889.8
申请日:2020-10-09
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/02 , G10L21/0208 , H04M9/08
Abstract: 本申请公开了一种音频数据处理方法和装置、通话方法、音频处理芯片、电子设备以及计算机可读存储介质。该方法包括:对第一音频数据和第二音频数据进行线性滤波处理,得到线性回声数据;根据第二音频数据与所述线性回声数据确定线性输出数据;根据第一音频数据和所述第二音频数据,确定第一状态数据和第二状态数据;根据第一状态数据和第二状态数据,确定权重因子,以对线性输出数据进行加权滤波处理,得到发送给第一通话方的第三音频数据。因此,本申请能够基于当前通话状态来进行加权滤波或者采取对应的抑制方案来进行处理,从而能够考虑不同通话状态下回声残余的成分特性来进行回声残余抑制处理,能够提高回声残余抑制效果,有效提高通话质量。
-
公开(公告)号:CN113936678A
公开(公告)日:2022-01-14
申请号:CN202010607494.5
申请日:2020-06-29
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0208 , G10L15/22
Abstract: 本说明书一个或多个实施例提供一种目标语音的检测方法及装置、设备、存储介质。其中,该检测方法可以包括:当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;检测所述增强音频数据中是否包含所述目标语音。
-
公开(公告)号:CN113744732A
公开(公告)日:2021-12-03
申请号:CN202010481877.2
申请日:2020-05-28
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/02 , G10L21/0208 , G10L25/84
Abstract: 本申请公开了设备唤醒相关系统、方法、装置及设备。其中,所述设备唤醒方法包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。采用这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
-
-
-
-
-
-
-
-
-