基于噪声屏蔽核的说话人识别方法

    公开(公告)号:CN103714818A

    公开(公告)日:2014-04-09

    申请号:CN201310681894.0

    申请日:2013-12-12

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。

    基于分数阶傅里叶变换的语音非语音检测方法

    公开(公告)号:CN103578466A

    公开(公告)日:2014-02-12

    申请号:CN201310557124.5

    申请日:2013-11-11

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。

    用于说话人识别的多背景模型建立方法

    公开(公告)号:CN101833951A

    公开(公告)日:2010-09-15

    申请号:CN201010118149.1

    申请日:2010-03-04

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

    建筑结构效果图的生成方法、装置和计算机设备

    公开(公告)号:CN118485794A

    公开(公告)日:2024-08-13

    申请号:CN202410787584.5

    申请日:2024-06-18

    Abstract: 本申请涉及一种建筑结构效果图的生成方法、装置和计算机设备。所述方法包括:获取建筑结构的背景信息、图需求信息、建筑信息、和手绘图数据,并通过大语言模型,生成所述建筑信息对应的提示词模板,从而确定所述建筑结构的初始提示词;通过所述大语言模型、以及文生图提示词生成策略,生成所述建筑结构的文生图提示词;识别各所述文生图提示词的质量分数,并筛选大于分数阈值的文生图提示词,作为目标文生图提示词;基于各所述目标文生图提示词、以及所述手绘图数据,生成所述建筑结构的效果图,并调整各所述文生图提示词的质量分数,返回执行上述步骤,得到所述建筑结构的目标效果图。采用本方法能够提升建筑结构效果图的生成效率。

    一种话务质检方法及装置
    35.
    发明授权

    公开(公告)号:CN112580367B

    公开(公告)日:2023-10-27

    申请号:CN202011538859.X

    申请日:2020-12-23

    Abstract: 本发明公开了一种话务质检方法及装置,可以获得客户与客服的通话音频数据,对通话音频数据进行语音识别,获得至少一条对话文本,对话文本包括客户部分文本和客服部分文本,将一条对话文本输入至训练好的语义向量提取器中,获得语义向量提取器输出的客户文本语义向量和客服文本语义向量,将客户文本语义向量和客服文本语义向量进行拼接,获得上下文相关语义向量,将获得的上下文相关语义向量输入至训练好的话务质检模型中,获得话务质检模型输出的一条对话文本的话务质检结果。本发明可以对所有的待检话务工单进行全面质检,有效提高质检效率,避免对质检人员的人力消耗,避免对质检不合格话务工单的遗漏。

    对象识别模型的训练方法、装置和计算机设备

    公开(公告)号:CN115358345A

    公开(公告)日:2022-11-18

    申请号:CN202211102838.2

    申请日:2022-09-09

    Applicant: 清华大学

    Abstract: 本申请涉及一种对象识别模型的训练方法、装置、计算机设备。方法包括:获取训练样本集,基于编码网络对样本组进行编码处理,得到正样本对象对应的第一混合编码、负样本对象对应的第二混合编码和标准混合编码;将混合编码分别输入至特征提取模型中,得到第一对象特征、第二对象特征和标准对象特征;通过特征适配网络、第一对象特征、第二对象特征和标准对象特征,得到第一特征距离和第二特征距离;基于第一特征距离和第二特征距离训练距离判决阈值和特征适配网络,并根据编码网络、特征提取模型、训练后的特征适配网络和距离判决阈值,构建对象识别模型。采用本方法能够提升对象识别的准确度。

    有害语音的识别方法、装置、计算机设备和存储介质

    公开(公告)号:CN113327601A

    公开(公告)日:2021-08-31

    申请号:CN202110579536.3

    申请日:2021-05-26

    Applicant: 清华大学

    Abstract: 本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。

    一种话务质检方法及装置
    38.
    发明公开

    公开(公告)号:CN112580367A

    公开(公告)日:2021-03-30

    申请号:CN202011538859.X

    申请日:2020-12-23

    Abstract: 本发明公开了一种话务质检方法及装置,可以获得客户与客服的通话音频数据,对通话音频数据进行语音识别,获得至少一条对话文本,对话文本包括客户部分文本和客服部分文本,将一条对话文本输入至训练好的语义向量提取器中,获得语音向量提取器输出的客户文本语义向量和客服文本语义向量,将客户文本语义向量和客服文本语义向量进行拼接,获得上下文相关语义向量,将获得的上下文相关语义向量输入至训练好的话务质检模型中,获得话务质检模型输出的一条对话文本的话务质检结果。本发明可以对所有的待检话务工单进行全面质检,有效提高质检效率,避免对质检人员的人力消耗,避免对质检不合格话务工单的遗漏。

    基于识别模型的识别方法、模型训练方法及装置

    公开(公告)号:CN111539495A

    公开(公告)日:2020-08-14

    申请号:CN202010659647.0

    申请日:2020-07-10

    Abstract: 本公开涉及一种基于识别模型的识别方法、模型训练方法及装置。其中,基于识别模型的识别方法包括识别模型包括特征提取模块,特征提取模块包括多个LSTM单元。识别方法包括:获取待识别特征序列,待识别特征序列包括连续的特征;将多个特征依序分别输入至多个LSTM单元,通过每个LSTM单元得到特征对应的第一隐藏状态;基于多个特征,以及多个特征分别对应的第一隐藏状态,以及特征提取模块的前次输出结果,得到特征提取模块的当前输出结果;基于特征提取模块的当前输出结果,得到识别结果。通过本公开,使得特征提取模块的当前输出结果更加合理、准确。

    语音数据库的质量评估方法、装置及计算机存储介质

    公开(公告)号:CN111008299B

    公开(公告)日:2020-06-19

    申请号:CN202010164556.X

    申请日:2020-03-11

    Abstract: 本发明涉及语音信号处理技术领域,提供一种语音数据库的质量评估方法、装置及计算机存储介质。语音数据库的质量评估方法包括:获取待评估的语音数据库,其中,语音数据库中包括至少一条语音;确定语音数据库中至少涉及一种分类因素,分类因素中包括多个子类因素;基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵;根据单因素信息熵,确定语音数据库的质量。通过本公开提供的语音数据库的质量评估方法,根据检测语音数据库涉及的分类因素,对语音数据库进行质量评估,能够快速得到评估结论,且得到的评估结论更具有客观性,有助于对语音数据库的构建进行调节。

Patent Agency Ranking