基于深度学习的流式实时语音识别方法

    公开(公告)号:CN114550708A

    公开(公告)日:2022-05-27

    申请号:CN202210151123.X

    申请日:2022-02-14

    Abstract: 本发明涉及一种基于深度学习的流式实时语音识别方法,通过输入RAW声音波形信号的语音片段,构建语音识别声学模型并训练,在执行预测时,将得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码;语音识别的语言模型采用统计N‑Gram模型,通过大规模语料库得到N元组统计数据;结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果;在模型落地部署后调用API接口或模块,使用流式算法模式,结合流式实时语音激活检测方法,实现流式实时语音识别。该方法不存在上文信息对下文信息的长时依赖,上下文无关,或仅存在下文信息对上文信息的依赖,可实现算法模型推理时的流式实时语音识别。

    一种基于手势识别的计算机人机交互方法

    公开(公告)号:CN115951783A

    公开(公告)日:2023-04-11

    申请号:CN202310055231.1

    申请日:2023-02-04

    Abstract: 本发明一种基于手势识别的计算机人机交互方法,使用选择配置惯用手势信息;按照系统提示和自身习惯分别作出不同动作的手势,并拍摄记录每帧图像中每个手势的信息,开启计算机摄像头,获取视频流;对视频流中的每一帧图像进行亮度和对比度增强;获取增强后的图像中的手部关键点坐标;根据手部关键点坐标,对实时视频进行多尺度距离统一映射,消除因手部与摄像头的距离造成的图像中手部关键点之间的距离误差;根据多尺度距离统一映射后的手部关键点坐标对手势进行分类,每个可识别的分类手势对应人机交互的一种设定操作;根据分类结果进行相应操作。本发明具有轻量级、低门槛、多功能、高实时性的特点。

    一种无人机单目相机避障方法
    7.
    发明公开

    公开(公告)号:CN115330871A

    公开(公告)日:2022-11-11

    申请号:CN202210969855.X

    申请日:2022-08-12

    Abstract: 本发明公开了一种无人机单目相机避障方法,包括;步骤1,设置无人机避障预警系统初始参数;步骤2,获取无人机装载的单目相机连续拍摄的可见光图像,将连续两帧图像作为配准基准图像,获得基准图像之间得配准关系表;步骤3,将output_matrix传入预警算法模块,计算基准图特征变化量cm_result,根据当前报警状态量,产生对应无人机避障状态信号;步骤4,将步骤3中产生得无人机避障状态信号累加至无报警信号统计量,当前进信号统计量达阈值时,系统发生报警;当后退信号统计量达阈值时系统取消报警;当转向统计量达到阈值时系统取消报警,转步骤1。本发明根据对特征变化结果的统计,对无人机的运动姿态进行简单的估计,并在运动方向上有障碍物接近时进行预警。

    基于深度学习的流式实时语音激活检测方法

    公开(公告)号:CN114550753A

    公开(公告)日:2022-05-27

    申请号:CN202210135633.8

    申请日:2022-02-14

    Abstract: 本发明涉及一种基于深度学习的流式语音激活检测方法,先输入RAW声音波形信号片段,进行声学特征提取,结合SpecAugment数据增强算法计算得到提取后的声学特征张量;然后构建基于深度卷积神经网络模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用的作为语音激活检测模型权重参数;最后语音激活检测模型在执行预测时,将得到的声学特征张量作为输入,得到预测输出结果。对于算法模型的实时性、准确率、鲁棒性、和弹性伸缩性等,都具有良好的表现,能够为语音通信、语音识别、智能问答、视频会议实时字幕和实时翻译等应用场景提供关键技术支持,同时也可用于非实时性的场景,具有一举两得的效果。

Patent Agency Ranking