一种结合文本纠错的流式语音识别方法

    公开(公告)号:CN118841003A

    公开(公告)日:2024-10-25

    申请号:CN202410973987.9

    申请日:2024-07-19

    Abstract: 本发明提供了一种结合文本纠错的流式语音识别方法。该方法包括:将待识别的音频数据进行分块处理后,将各个块的音频数据输入到流式语音识别系统,流式语音识别系统输出各个块的识别文本;将各个块的识别文本划分为等长文本块,再输入到纠错模型;纠错模型通过编码模块输出各个块的编码表示,再通过解码模块将各个块的编码表示逐块进行解码,利用记忆库计算当前帧与历史帧的相关性,输出纠错处理后的各个块;将纠错处理后的各个块发送至边缘补偿模块,边缘补偿模块利用历史块共同解码结果对各个块的右边缘进行修正补偿,得到各个块的音频数据的最终的识别文本。本发明方法实现了纠错模型的流式输出,使用边缘补偿机制解决了边缘错误纠正的问题。

    一种基于空间相关性与光流配准的多目标跟踪方法

    公开(公告)号:CN115100565A

    公开(公告)日:2022-09-23

    申请号:CN202210680138.5

    申请日:2022-06-16

    Abstract: 本发明提供了一种基于空间相关性与光流配准的多目标跟踪方法。该方法包括:将视频帧图像输入到空间信息与拓扑关系融合网络中,融合不同尺寸的图像特征,输出融合后的特征图;将融合特征图输入至空间信息与拓扑关系融合网络,并连接四个任务头,分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,以确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征;将外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,关联不同帧图像的检测结果,生成目标跟踪轨迹。本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息,增加网络的表征能力,提高了目标轨迹的稳定性。

    一种端到端长时语音识别方法

    公开(公告)号:CN113516968B

    公开(公告)日:2022-05-20

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

    一种基于鲁棒性表征学习的场景文本识别方法

    公开(公告)号:CN113343707B

    公开(公告)日:2022-04-08

    申请号:CN202110625864.2

    申请日:2021-06-04

    Abstract: 本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括:将待识别的图像输入文本矫正网络,得到矫正图像;将矫正图像输入编码器,编码器利用坐标编码模块提取图像的空间纹理信息,利用上下文建模网络提取文本的语义建模特征,输出文本的语义建模特征给全局语义提取模块和解码器;全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器;解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测,输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布,有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。

    一种端到端长时语音识别方法

    公开(公告)号:CN113516968A

    公开(公告)日:2021-10-19

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

    基于声纹特征与生成对抗学习的多说话人语音分离方法

    公开(公告)号:CN111128197A

    公开(公告)日:2020-05-08

    申请号:CN201911356481.9

    申请日:2019-12-25

    Inventor: 明悦 傅豪

    Abstract: 本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。

    图像识别方法和装置
    7.
    发明公开

    公开(公告)号:CN110399897A

    公开(公告)日:2019-11-01

    申请号:CN201910286523.X

    申请日:2019-04-10

    Abstract: 本发明实施例提供一种图像识别方法和装置。方法包括:从L张图像中选取第一图像组以及第二图像组,根据第一图像组和第二图像组中每张图像的图像特征,计算第一图像组中每一图像与第二图像组中每一图像的图像关联性,初始化目标函数的参数,对目标函数的参数进行迭代更新,获得迭代更新后的目标函数,确定L张图像的聚类中心,迭代更新的次数为至少一次;根据更新后的目标函数中的哈希函数对待识别图像的图像特征进行二值编码,获得二值编码数据;根据待识别图像的二值编码数据与L张图像的聚类中心中每张图像的二值编码数据,识别待识别图像。从而提高图像识别的准确性。

    三维人脸图像特征提取方法和系统

    公开(公告)号:CN104978549B

    公开(公告)日:2019-04-02

    申请号:CN201410133560.4

    申请日:2014-04-03

    Abstract: 本发明提供了一种三维人脸图像特征提取方法,所述方法包括:人脸区域分割,得到一组人脸区域;将每个人脸区域投射到对应的区域边界球;根据所述区域边界球获取对应的人脸区域的表示,记为所述人脸区域的区域边界球描述子;对每个人脸区域计算所述人脸区域的区域边界球描述子的权重;根据所述人脸区域的表示和对应的所述权重获取三维人脸图像的特征。采用该方法,能够使得提取出的三维人脸图像的特征同时满足于人脸识别和情感分析。此外,还提供了一种三维人脸图像特征提取系统。

    手部运动识别方法和装置

    公开(公告)号:CN105022982B

    公开(公告)日:2019-03-29

    申请号:CN201410163979.4

    申请日:2014-04-22

    Abstract: 本发明涉及一种手部运动识别方法和装置。所述方法包括:获取待识别视频;对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;对所述手部的RGB视频和深度信息视频对进行检测得到特征点;将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。上述手部运动识别方法和装置,因采用特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。

    损伤识别方法及装置
    10.
    发明公开

    公开(公告)号:CN106815835A

    公开(公告)日:2017-06-09

    申请号:CN201710018726.1

    申请日:2017-01-10

    Abstract: 本发明提供一种损伤识别方法及装置,属于航空设备技术领域。该损伤识别方法包括:对待识别图像进行预处理,预处理包括将待识别图像划分为M个子图像块,M为大于等于2的整数;将M个子图像块通过预设识别模型进行识别,确定M个子图像块对应的损伤类型;预设识别模型通过卷积层、池化层及全连接层对子图像块进行识别;输出M个子图像块对应的损伤类型。本发明提供的损伤识别方法及装置,提高了飞行器表面损伤类型的识别率。

Patent Agency Ranking