一种远场语音识别方法、语音识别模型训练方法和服务器

    公开(公告)号:CN110797008B

    公开(公告)日:2024-03-29

    申请号:CN201810775407.X

    申请日:2018-07-16

    Inventor: 薛少飞

    Abstract: 本申请提供了一种远场语音识别方法、语音识别模型训练方法和服务器,其中,该远场语音识别方法包括:获取语音数据;确定所述语音数据是否为远场语音数据;在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。利用本申请实施例提供的技术方案,因为在对频带能量规整过程中引入了时间维度信息和频率维度信息,从而可以弱化时间和频率对语音识别准确度的影响,基于该语音识别模型进行远程语音识别,可以有效提升识别准确率,从而达到了有效提升语音识别模型的识别准确率的技术效果。

    音频信号识别方法、装置、设备、系统和存储介质

    公开(公告)号:CN111063338A

    公开(公告)日:2020-04-24

    申请号:CN201811148191.0

    申请日:2018-09-29

    Inventor: 薛少飞

    Abstract: 本发明实施例公开了一种音频信号识别方法、装置、设备、系统和存储介质,该方法包括:针对接收的音频信号,确定音频信号中是否包括特定音频信号;如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型;利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。根据本发明实施例提供的音频信号识别方法,可以提高音频信号识别准确率。

    语音识别方法和设备
    3.
    发明授权

    公开(公告)号:CN110875039B

    公开(公告)日:2023-12-01

    申请号:CN201811000407.9

    申请日:2018-08-30

    Inventor: 薛少飞

    Abstract: 本申请提供了一种语音识别方法和设备,其中,该方法包括:获取语音数据;通过多个方言语音识别模型组件对所述语音数据并行进行识别,得到用于多个语言方言的识别结果和置信度值;通过场景相关度判别模型,确定用于多个语言方言的识别结果属于目标场景的相关度值;对置信度和相关度进行融合判断,确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式,从而提升了方言确定的准确性,解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误,将会导致后续的语音识别结果都会出错的问题,达到了有效提升语音识别结果准确性的技术效果。

    音频信号识别方法、装置、设备、系统和存储介质

    公开(公告)号:CN111063338B

    公开(公告)日:2023-09-19

    申请号:CN201811148191.0

    申请日:2018-09-29

    Inventor: 薛少飞

    Abstract: 本发明实施例公开了一种音频信号识别方法、装置、设备、系统和存储介质,该方法包括:针对接收的音频信号,确定音频信号中是否包括特定音频信号;如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型;利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。根据本发明实施例提供的音频信号识别方法,可以提高音频信号识别准确率。

    声音识别方法和系统
    5.
    发明授权

    公开(公告)号:CN110890085B

    公开(公告)日:2023-09-12

    申请号:CN201811051604.3

    申请日:2018-09-10

    Inventor: 薛少飞 张仕良

    Abstract: 本申请公开了一种声音识别方法和系统。其中,该方法包括:获取声音信号;对声音信号进行特征提取,得到声音信号的声学特征信息;利用声学模型和语言模型对声学特征信息进行识别,得到声音信号的识别结果,其中,声学模型包括:LC‑BLSTM模型和DFSMN模型。本申请解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

    一种语音数据处理方法及装置

    公开(公告)号:CN110097871B

    公开(公告)日:2023-05-12

    申请号:CN201810093648.6

    申请日:2018-01-31

    Inventor: 薛少飞 田彪

    Abstract: 本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括:获取麦克风录制的语音数据;获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案,一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。

    基于神经网络的声纹信息提取方法及装置

    公开(公告)号:CN107492382B

    公开(公告)日:2020-12-18

    申请号:CN201610421908.9

    申请日:2016-06-13

    Inventor: 薛少飞

    Abstract: 本发明揭示了一种基于神经网络的声纹信息提取方法及装置,其中,所述方法包括:对输入的语音片段提取语音声学特征;将所述语音声学特征输入基于神经网络训练的声纹模型中,并提取所述声纹模型中神经网络的瓶颈特征;将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量,作为与所述输入的语音片段对应的声纹信息。本发明的基于神经网络的声纹信息提取方法及装置,通过基于神经网络训练的声纹模型对语音片段提取声纹信息,提取过程较为简单,且能够更好的处理短时语音片段。

    一种远场语音识别方法、语音识别模型训练方法和服务器

    公开(公告)号:CN110797008A

    公开(公告)日:2020-02-14

    申请号:CN201810775407.X

    申请日:2018-07-16

    Inventor: 薛少飞

    Abstract: 本申请提供了一种远场语音识别方法、语音识别模型训练方法和服务器,其中,该远场语音识别方法包括:获取语音数据;确定所述语音数据是否为远场语音数据;在确定所述语音数据为远场语音数据的情况下,通过语音识别模型对所述语音数据进行识别,其中,所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息,对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。利用本申请实施例提供的技术方案,因为在对频带能量规整过程中引入了时间维度信息和频率维度信息,从而可以弱化时间和频率对语音识别准确度的影响,基于该语音识别模型进行远程语音识别,可以有效提升识别准确率,从而达到了有效提升语音识别模型的识别准确率的技术效果。

    声音识别方法和系统
    9.
    发明公开

    公开(公告)号:CN110890085A

    公开(公告)日:2020-03-17

    申请号:CN201811051604.3

    申请日:2018-09-10

    Inventor: 薛少飞 张仕良

    Abstract: 本申请公开了一种声音识别方法和系统。其中,该方法包括:获取声音信号;对声音信号进行特征提取,得到声音信号的声学特征信息;利用声学模型和语言模型对声学特征信息进行识别,得到声音信号的识别结果,其中,声学模型包括:LC-BLSTM模型和DFSMN模型。本申请解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

    语音识别方法和设备
    10.
    发明公开

    公开(公告)号:CN110875039A

    公开(公告)日:2020-03-10

    申请号:CN201811000407.9

    申请日:2018-08-30

    Inventor: 薛少飞

    Abstract: 本申请提供了一种语音识别方法和设备,其中,该方法包括:获取语音数据;通过多个方言语音识别模型组件对所述语音数据并行进行识别,得到用于多个语言方言的识别结果和置信度值;通过场景相关度判别模型,确定用于多个语言方言的识别结果属于目标场景的相关度值;对置信度和相关度进行融合判断,确定所述语音数据的方言识别结果。本申请的方案通过方言确定和场景确定相融合的方式,从而提升了方言确定的准确性,解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误,将会导致后续的语音识别结果都会出错的问题,达到了有效提升语音识别结果准确性的技术效果。

Patent Agency Ranking