-
公开(公告)号:CN109754814B
公开(公告)日:2023-07-28
申请号:CN201711091771.6
申请日:2017-11-08
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216 , G10L15/22 , G10L15/25 , G10L15/20
Abstract: 本申请提供了一种声音处理方法、交互设备,其中,该方法包括:基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置;根据所述声源位置,对所述声音对象的声音数据进行声音增强。通过上述方案解决了现有的在嘈杂环境下无法有效消噪的问题,达到了有效抑制噪声,提升语音识别准确性的技术效果。
-
公开(公告)号:CN114648996A
公开(公告)日:2022-06-21
申请号:CN202011517339.0
申请日:2020-12-21
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 本申请公开了一种音频数据处理方法和装置、语音交互方法、设备和芯片、音箱、电子设备及存储介质。该方法包括:获取当前麦克风信号和参考信号;使用空间传递函数和回声路径数据将当前麦克风信号构建为历史麦克风信号以及当前的参考信号的函数形式;确定其相关性并分离一个或多个音频源发出的源信号。本申请实施例通过获取麦克风信号和参考信号并且在历史麦克风信号中包含源信号和参考信号的历史信息,从而能够直接使用盲源分离的计算框架来对原始音频进行回声消除、去混响以及盲源分离这三种处理,消除了现有技术中需要使用不同的模块/框架来分别进行上述处理带来的优化冲突的问题,从而可以进一步提高音频处理优化的效果。
-
公开(公告)号:CN114446288A
公开(公告)日:2022-05-06
申请号:CN202011116808.8
申请日:2020-10-19
Applicant: 阿里巴巴集团控股有限公司
Abstract: 公开了一种语音交互方法、装置及设备。对采集的音频数据进行语音活动检测;判断检测到的语音数据的时长是否大于第一阈值;若语音数据的时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。若基于语音活动检测得到的语音数据的时长小于第一阈值,则可以认为该语音数据为设备输出语音的回声数据(如残余回声),因此通过不将语音数据交由语音识别系统进行语音识别,可以避免因对设备输出语音的回声进行语音识别而对正常的语音交互产生干扰,提升语音交互服务质量。
-
公开(公告)号:CN110441738A
公开(公告)日:2019-11-12
申请号:CN201810415132.9
申请日:2018-05-03
Applicant: 阿里巴巴集团控股有限公司
IPC: G01S5/26
Abstract: 本发明公开了一种车载语音定位的方法、系统、车辆和存储介质。该方法包括:由布置在车辆前端的面向目标座位处的第一传感器阵列,采集目标座位处的目标声源的第一语音信号,第一传感器阵列包括邻间距为第一距离的多个第一传感器;由布置在车辆侧端的第二传感器阵列,采集目标声源的第二语音信号,第二传感器阵列包括邻间距为第二距离的多个第二传感器,第一距离小于第二距离;基于第一语音信号确定方位角度,方位角度是第一语音信号的传播方向与第一传感器阵列的接收方向形成的角度;基于第二语音信号确定时延;基于方位角度和延迟,确定目标声源的位置。上述发明实施例可以对车辆内的一个或者多个语音同时进行精确定位。
-
公开(公告)号:CN109994122A
公开(公告)日:2019-07-09
申请号:CN201711488055.1
申请日:2017-12-29
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0208 , G10L21/0216 , G10L21/0224 , G10L25/27 , G10L25/78 , G10L25/84
Abstract: 本申请实施例公开了一种语音数据的处理方法、装置、设备、介质和系统,用以在去除串扰音的同时,增强可扩展性,降低升级难度。所述方法包括:在时域对齐处理后的多路语音数据中,确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比;根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比,确定每路语音数据的类型,其中,语音数据的类型包括主音和串扰音;保留类型为主音的语音数据,去除类型为串扰音的语音数据。
-
公开(公告)号:CN109754814A
公开(公告)日:2019-05-14
申请号:CN201711091771.6
申请日:2017-11-08
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216 , G10L15/22 , G10L15/25 , G10L15/20
Abstract: 本申请提供了一种声音处理方法、交互设备,其中,该方法包括:基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置;根据所述声源位置,对所述声音对象的声音数据进行声音增强。通过上述方案解决了现有的在嘈杂环境下无法有效消噪的问题,达到了有效抑制噪声,提升语音识别准确性的技术效果。
-
公开(公告)号:CN109509465A
公开(公告)日:2019-03-22
申请号:CN201710850441.4
申请日:2017-09-15
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L15/22
Abstract: 本申请实施例公开了一种语音信号的处理方法、组件、设备及介质,用以提高语音控制的灵活性。所述方法,包括:处理组件将接收到的混合语音信号中来自不同方位的语音信号分离,得到多路语音信号;所述处理组件对所述多路语音信号中的部分或全部进行并行识别,其中,所述并行识别包括:对所述多路语音信号中的部分或全部,分别将每路语音信号分成多个识别单位以进行识别,其中每个识别单位包括连续的多帧。
-
公开(公告)号:CN112289335B
公开(公告)日:2024-11-12
申请号:CN201910671135.3
申请日:2019-07-24
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216
Abstract: 本申请实施例提供了一种语音信号的处理方法、装置及拾音设备,涉及语音处理领域。其中,所述方法包括:获取布置于语音交互设备的语音采集装置和音频采集装置分别采集的第一混合语音信号和第二混合语音信号,其中,所述语音采集装置与所述音频采集装置的语音采集方向不同;利用所述第二混合语音信号中的环境干扰信号,对所述第一混合语音信号中的目标语音信号进行信号增强处理,以获得信号增强后的所述目标语音信号。通过本申请实施例,利用第二混合语音信号中的环境干扰信号,对第一混合语音信号中的目标语音信号进行信号增强处理,不仅能够有效降低信号增强处理所需的计算资源,而且还能够有效提升目标语音信号的语音增强效果。
-
公开(公告)号:CN110097871B
公开(公告)日:2023-05-12
申请号:CN201810093648.6
申请日:2018-01-31
Applicant: 阿里巴巴集团控股有限公司
Abstract: 本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括:获取麦克风录制的语音数据;获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案,一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。
-
公开(公告)号:CN114648999A
公开(公告)日:2022-06-21
申请号:CN202011508186.3
申请日:2020-12-18
Applicant: 阿里巴巴集团控股有限公司
IPC: G10L21/0216
Abstract: 本申请涉及一种语音增强、交互方法、装置、程序产品及设备,其中,方法包括:在第一时间段中,采集麦克风信号,并根据麦克风信号,提取噪音特征;在间隔第二时间段后,根据噪音特征更新波束形成器;使用更新后的波束形成器,对后续的麦克风信号进行语音增强处理。本发明实施例利用在设备移动过程中,设备自身噪音信号特征变化较小,而外部的语音信号特征由于声源位置的变化而发生较大变化的特点,通过在噪音特征采集与波束形成器更新之间设置时间间隔的方式,来避免了有用的语音成分被消掉,从而提升语音增强的性能。
-
-
-
-
-
-
-
-
-