用于具有触发注意力的端到端语音识别的系统和方法

    公开(公告)号:CN113574595A

    公开(公告)日:2021-10-29

    申请号:CN202080021866.4

    申请日:2020-01-16

    Abstract: 一种语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所提交的分区的转录输出。

    使用基于图的时间分类训练神经网络

    公开(公告)号:CN116547674A

    公开(公告)日:2023-08-04

    申请号:CN202180071325.7

    申请日:2021-07-02

    Abstract: 提供了一种用于使用由代表标签和标签之间的转移的边连接的节点的有向图,用基于图的时间分类(GTC)目标函数来训练神经网络的方法。有向图指定了标签序列和概率分布序列之间的非单调对齐以及对标签重复的约束中的一种或组合。该方法包括:实施神经网络,以将观察序列变换为概率分布序列;以及基于GTC目标函数更新神经网络的参数,GTC目标函数被配置为使通过将有向图展开到观察序列的长度并将每个展开的节点和边的序列映射到可能的标签序列而生成的所有可能的标签序列的条件概率之和最大化。

    用异步解码器流式传输端到端语音识别的系统和方法

    公开(公告)号:CN114787914A

    公开(公告)日:2022-07-22

    申请号:CN202080083717.0

    申请日:2020-12-04

    Abstract: 语音识别系统利用帧同步解码器(FSD)模块和标签同步解码器(LSD)模块连续处理经编码声学特征的每个编码器状态。当识别出携带关于新转录输出的信息的编码器状态时,系统利用FSD模块扩展当前的FSD前缀列表,利用LSD模块评估FSD前缀,并根据联合的FSD评分和LSD评分修剪FSD前缀。通过使LSD模块处理编码器状态的包括由FSD模块识别的新转录输出的部分并产生由FSD模块确定的FSD前缀的LSD评分,来使FSD模块和LSD模块同步。

    长语境端到端语音识别系统
    4.
    发明公开

    公开(公告)号:CN116324974A

    公开(公告)日:2023-06-23

    申请号:CN202180068325.1

    申请日:2021-04-28

    Abstract: 本发明总体上涉及语音处理,更特别地是,涉及利用长语境信息的端到端自动语音识别(ASR)。本发明的一些实施方式提供了适合识别长音频记录(诸如演讲和交谈语音)的端到端ASR的系统和方法。本公开包括利用语境信息的基于变换器的ASR系统,其中变换器同时接受多句话语,并预测最后一句话语的转录。这是以滑动窗口方式按照一句话语移位进行重复,来识别整个记录。此外,当长音频记录包括多个讲话者时,本发明的一些实施方式可以使用仅从由与最后一句话语相同的讲话者所说的先前话语获得的声学和/或文本特征。

    语音识别系统、方法以及非暂时性计算机可读存储介质

    公开(公告)号:CN113574595B

    公开(公告)日:2023-11-24

    申请号:CN202080021866.4

    申请日:2020-01-16

    Abstract: 本申请实施例提供一种语音识别系统、方法以及非暂时性计算机可读存储介质,该语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所

    通过扩张的自注意力来捕获上下文的人工智能系统

    公开(公告)号:CN117043786A

    公开(公告)日:2023-11-10

    申请号:CN202180096134.6

    申请日:2021-11-30

    Abstract: 公开了一种人工智能(AI)系统。该AI系统包括处理器,该处理器利用神经网络处理输入帧序列,该神经网络包括扩张的自注意力模块,该扩张的自注意力模块被训练成,通过以下操作来计算输出序列:将各个输入帧变换成对应的查询帧、对应的键帧以及对应的值帧,从而导致具有相同排序的键帧序列、值帧序列以及查询帧序列;以及关于键帧序列和值帧序列中的基于查询帧的位置而受限的一部分与键帧的扩张序列和值帧的扩张序列的组合来执行针对各个查询帧的注意力计算,所述键帧的扩张序列和值帧的扩张序列是通过利用预定提取函数处理键帧序列和值帧序列中的不同帧来提取的。此外,该处理器呈现输出序列。

    用于生成音频信号的元数据的系统和方法

    公开(公告)号:CN116324984A

    公开(公告)日:2023-06-23

    申请号:CN202180067206.4

    申请日:2021-04-27

    Abstract: 提供了一种音频处理系统。该音频处理系统包括输入接口,其被配置为接受音频信号。此外,该音频处理系统包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理系统包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。

Patent Agency Ranking