用于快速音乐分类和检索的方法和设备

    公开(公告)号:CN101398825A

    公开(公告)日:2009-04-01

    申请号:CN200710151768.9

    申请日:2007-09-29

    Abstract: 本发明公开了一种用于快速音乐分类和搜索的方法和设备。所述方法包括以下步骤:输入音乐文件;提取输入的音乐文件的每一帧的基于MDCT的声学特征;计算每一帧的能量;按照能量大小将每一帧的声学特征进行排序。所述方法还包括以下步骤:将排序后的声学特征划分为多个段;针对所述多个段中的一个或多个计算均值和标准偏差;将计算的均值和标准偏差组合成向量。本发明使用的短时音乐特征,即MFCC和音色特征,直接从MDCT系数中得到。所以特征提取的速度非常快。为了分类一首音乐,仅需对音乐文件的12秒长度的部分进行解码。

    利用语音唤醒执行语音识别的方法和装置

    公开(公告)号:CN113841196B

    公开(公告)日:2025-01-07

    申请号:CN202080037110.9

    申请日:2020-05-15

    Abstract: 一种语音识别方法,包括:接收第一多声道音频信号;针对与第一多声道音频信号中包括的声道音频信号对应的频带的至少一个频带,针对当前帧获取语音信号特性和噪声信号特性;通过基于语音信号特性、噪声信号特性以及在当前帧之前的特定时间段内针对先前帧获取的先前语音信号特性对第一多声道音频信号进行波束形成,从而生成具有经增强语音分量的信号;确定经增强语音分量是否包括唤醒词;以及基于确定出经增强语音分量包括唤醒词:基于具有经增强语音分量的信号启用语音识别操作。

    基于说话者识别的语音识别方法和装置

    公开(公告)号:CN109643549B

    公开(公告)日:2023-09-05

    申请号:CN201780052734.6

    申请日:2017-08-24

    Abstract: 提供了一种基于说话者识别来识别语音并输出语音识别结果的语音识别方法和装置。所述语音识别方法包括激活用于接收音频信号的输入的会话,在维持所述会话的同时,对从所述输入音频信号检测到的语音信号执行语音识别,基于从所述语音信号生成的说话者信息,确定语音信号的说话者是否是注册的说话者,基于所述确定的结果确定是否维持会话,并输出执行所述语音识别的结果。

    用于使用语法模型执行话音识别的方法和设备

    公开(公告)号:CN107112010B

    公开(公告)日:2021-06-01

    申请号:CN201580073696.3

    申请日:2015-01-16

    Abstract: 本申请公开了一种更新包括用于语音识别的语言模型的语音识别数据的方法,所述方法包括:获取包括至少一个字的语言数据;从至少一个字当中检测不存在于语言模型中的字;获取关于检测到的字的至少一个音素序列;通过将至少一个音素序列划分成预定单元分量来获取构成至少一个音素序列的分量;确定关于在语音识别期间构成至少一个音素序列中的每一个的各个分量出现的概率的信息;以及基于所确定的概率信息来更新语言模型。

    在包括多个设备的环境中的语音识别方法和设备

    公开(公告)号:CN112639965A

    公开(公告)日:2021-04-09

    申请号:CN201980055917.2

    申请日:2019-10-22

    Abstract: 提供了一种利用机器学习算法(诸如深度学习等)的人工智能(AI)系统以及AI系统的应用。一种由语音识别设备执行的在存在多个语音识别设备的空间中执行语音识别的语音识别方法,包括:从输入音频信号中提取说话者的语音信号;获得指示所述语音信号与注册说话者的语音信号之间的相似度的第一说话者识别分数;以及基于从所述多个语音识别设备中的另一语音识别设备获得的第二说话者识别分数和第一说话者识别分数,输出针对所述语音信号的语音识别结果。

Patent Agency Ranking