用于识别说话人的建模设备和方法、以及说话人识别系统

    公开(公告)号:CN103229233A

    公开(公告)日:2013-07-31

    申请号:CN201080070321.9

    申请日:2010-12-10

    CPC classification number: G10L17/04

    Abstract: 本发明实现用于识别说话人的建模设备和方法、以及说话人识别系统。建模设备包括:前端,从各目标说话人取得登记语音数据;参考锚集合生成单元,基于锚空间使用登记语音数据生成参考锚集合;以及声纹生成单元,基于参考锚集合和登记语音数据生成声纹。在本公开中,通过考虑登记语音和说话人自适应技术,能够生成尺寸更小的锚模型,因而能够进行具有尺寸更小的参考锚集合的、可靠性高的鲁棒的说话人识别。这对于进行计算速度的改善以及大幅度的存储器削减是非常有利的。

    声音空间基准模型的在线自适应调节方法及装置和设备

    公开(公告)号:CN102237084A

    公开(公告)日:2011-11-09

    申请号:CN201010155674.0

    申请日:2010-04-22

    CPC classification number: G10L25/57 G10L2015/0631

    Abstract: 公开了一种在AV设备中用输入的AV流中包含的音频流对声音空间的基准模型进行在线自适应调节的方法和装置及设备。该方法包括步骤:估计音频流中每个声音事件的单一概率模型,所述声音事件具有单一的声学特征;针对事先存储的至少一个单一概率模型和各个声音事件的单一概率模型进行聚类,以更新所述声音空间的基准模型。利用上述方案,可以根据随时输入的AV流来自适应在线调节声音空间的基准模型,从而避免了聚类过程中的遗漏。即使对于较长AV流中的一小段声音事件,也能够实现正确的聚类。

Patent Agency Ranking