-
公开(公告)号:CN107808664A
公开(公告)日:2018-03-16
申请号:CN201610773161.3
申请日:2016-08-30
Applicant: 富士通株式会社
CPC classification number: G10L15/16 , G10L15/02 , G10L15/063
Abstract: 本申请实施例提供一种基于稀疏神经网络的语音识别方法、装置和电子设备,该方法包括:对待识别语音片段进行处理,以获得所述待识别语音片段中的每个语音帧的特征向量;采用稀疏神经网络对所述特征向量进行识别,以获得与所述特征向量对应的状态标签值(state id),其中,所述稀疏神经网络的权重矩阵基于维度变换而得到;以及采用解码模型对所述状态标签值进行解码,以得到所述待识别语音片段对应的文本。根据本实施例,语音识别用的稀疏神经网络的规模被缩小,并且,该稀疏神经网络的训练时间较短,训练结果被改善。
-
公开(公告)号:CN107274904A
公开(公告)日:2017-10-20
申请号:CN201610216660.2
申请日:2016-04-07
Applicant: 富士通株式会社
Abstract: 本发明公开了一种说话人识别方法和说话人识别设备。该说话人识别方法包括:从待识别说话人语料中,提取待识别说话人的语音特征;基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
-
公开(公告)号:CN119516296A
公开(公告)日:2025-02-25
申请号:CN202311069437.6
申请日:2023-08-23
Applicant: 富士通株式会社
IPC: G06V10/774
Abstract: 公开了图像处理装置和方法、模型训练装置及计算机可读存储介质。图像处理装置可以包括:图像生成单元,被配置成对输入数据设置多个运动相关参数来使输入数据变化,利用预先训练的扩散生成模型基于变化过程中的输入数据来生成第二图像。多个运动相关参数包括位移、速度和加速度。预先训练的扩散生成模型是通过如下方式得到的:对训练图像集中的每个原始训练图像的各个像素点设置多个运动相关参数来使像素点变化,并且基于在变化过程中的多个阶段的经变化的训练图像来对基于分数的扩散生成模型进行训练,以获得预先训练的扩散生成模型。
-
公开(公告)号:CN118736540A
公开(公告)日:2024-10-01
申请号:CN202310325584.9
申请日:2023-03-29
Applicant: 富士通株式会社
IPC: G06V20/60 , G06V20/40 , G06V10/764 , G07G1/00
Abstract: 本申请实施例提供一种物品识别装置和方法以及电子设备。所述装置包括:检测器,其对视频数据的图像帧中的参考区域进行物品检测;追踪器,其对多个图像帧中检测到的物品进行追踪;其中以不同时间窗对所述多个图像帧中的所述物品进行多层级判定;以及分类器,其根据所述追踪器的判定结果识别所述物品。由此,即使在某些场景下物品被短暂移动,该物品也不会被识别为两个不同的物品,能够减少物品被重复识别的情况,提升物品检测的准确性和鲁棒性。
-
公开(公告)号:CN107808664B
公开(公告)日:2021-07-30
申请号:CN201610773161.3
申请日:2016-08-30
Applicant: 富士通株式会社
Abstract: 本申请实施例提供一种基于稀疏神经网络的语音识别方法、装置和电子设备,该方法包括:对待识别语音片段进行处理,以获得所述待识别语音片段中的每个语音帧的特征向量;采用稀疏神经网络对所述特征向量进行识别,以获得与所述特征向量对应的状态标签值(state id),其中,所述稀疏神经网络的权重矩阵基于维度变换而得到;以及采用解码模型对所述状态标签值进行解码,以得到所述待识别语音片段对应的文本。根据本实施例,语音识别用的稀疏神经网络的规模被缩小,并且,该稀疏神经网络的训练时间较短,训练结果被改善。
-
公开(公告)号:CN109872725A
公开(公告)日:2019-06-11
申请号:CN201711267389.6
申请日:2017-12-05
Applicant: 富士通株式会社
Abstract: 本申请公开了一种多视角向量处理方法和设备。多视角向量x用于表征包含至少两个不可分立的视角的信息的对象。该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数;以及匹配步骤,利用所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,计算两个多视角向量的各个视角分量相同和不同的似然性分量,对所计算的似然性分量进行预处理以获得近似似然性,并且依据所述近似似然性来判断两个多视角向量是否匹配。
-
公开(公告)号:CN108268948A
公开(公告)日:2018-07-10
申请号:CN201710001199.3
申请日:2017-01-03
Applicant: 富士通株式会社
Abstract: 本发明涉及数据处理装置和数据处理方法。根据本发明的数据处理装置包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量;划分单元,用于将i向量划分为多个簇,并计算每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明的数据处理装置和数据处理方法,可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离,从而减小在音频数据注册和识别过程中产生的计算量,同时能够得到更加充分的标签信息。
-
-
-
-
-
-