-
公开(公告)号:CN117409121A
公开(公告)日:2024-01-16
申请号:CN202311344000.9
申请日:2023-10-17
Applicant: 西安电子科技大学
IPC: G06T13/40 , G10L19/16 , G10L25/63 , G06T13/20 , G06V40/16 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质,方法包括:向OpenFace模型中输入参考图像获取人脸面部特征信息,向音频编码器中输入音频片段,解耦其中的情感向量,获取纯粹的内容特征,将内容特征输入表达系数预测网络得到预测表达系数,人为指定情感类别标签和强度标签,将标签及内容特征输入情感系数预测网络和姿势系数预测网络获得预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,生成具有细粒度情感控制的说话人脸视频;系统、设备及介质,用于实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法;克服了人脸与音频情感表达不同步,唇音同步性差,不能生成指定情感和细粒度情感强度的说话人脸视频的问题。
-
公开(公告)号:CN116434331A
公开(公告)日:2023-07-14
申请号:CN202310277107.X
申请日:2023-03-21
Applicant: 西安电子科技大学
IPC: G06V40/20 , G06N3/045 , G06N3/0475 , G06N3/094 , G06N3/0442 , G06V20/40 , G06V10/82 , G06V10/764 , G06V10/80
Abstract: 基于记忆网络和生成对抗网络的抗干扰手势识别方法、系统、设备及介质,其方法为:首先建立记忆网络,将不同样本的手势特征根据相似性写入不同的记忆槽中,通过记忆读取获取手势不变量,缩小不同样本和手势不变量之间的差距即可避免明显的与手势无关因素的干扰;其次基于生成对抗网络来构建跨模态循环,将每个模态的特征分解为模态不变量和模态特定特征,利用模态不变量以及模态特定特征实现跨模态重构,从而促进不同模态之间的信息互补;最后将得到的手势不变量特征和模态特征共同输入手势识别网络中,进行抗干扰手势识别;其系统、设备及介质能够基于记忆网络和生成对抗网络进行抗干扰手势识别,能够提高识别准确率及识别效率。
-
公开(公告)号:CN114550708A
公开(公告)日:2022-05-27
申请号:CN202210151123.X
申请日:2022-02-14
Applicant: 西安电子科技大学重庆集成电路创新研究院
Abstract: 本发明涉及一种基于深度学习的流式实时语音识别方法,通过输入RAW声音波形信号的语音片段,构建语音识别声学模型并训练,在执行预测时,将得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码;语音识别的语言模型采用统计N‑Gram模型,通过大规模语料库得到N元组统计数据;结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果;在模型落地部署后调用API接口或模块,使用流式算法模式,结合流式实时语音激活检测方法,实现流式实时语音识别。该方法不存在上文信息对下文信息的长时依赖,上下文无关,或仅存在下文信息对上文信息的依赖,可实现算法模型推理时的流式实时语音识别。
-
公开(公告)号:CN119849701A
公开(公告)日:2025-04-18
申请号:CN202510042779.1
申请日:2025-01-10
Applicant: 西安电子科技大学
IPC: G06Q10/04 , G06Q50/20 , G06F18/243 , G06F18/25 , G06F18/214 , G06F18/213 , G06N3/045 , G06N3/08 , G06N5/01 , G06N20/20
Abstract: 基于特征交互神经树的学生学业预警预测方法,其方法是:首先从学校系统采集和整理学生在学校里产生的各种行为数据,构建学生行为数据集,通过改进SMOTE算法对少数类样本进行生成,缓解数据集不平衡的问题;其次通过多元高斯编码对平衡后的数据集进行编码,并利用层归一化对平衡后的数据进行标准化;然后将处理后的数据输入特征交互神经树模块FINT Block,加强特征表示能力,利用加权平均机制融合所有DODT输出;最后结合残差连接,将多个FINT Block进行堆叠,得出准确且具有可解释性的学业预警预测分类结果。
-
公开(公告)号:CN115951783A
公开(公告)日:2023-04-11
申请号:CN202310055231.1
申请日:2023-02-04
Applicant: 西安电子科技大学
IPC: G06F3/01 , G06V40/20 , G06V20/40 , G06V10/764
Abstract: 本发明一种基于手势识别的计算机人机交互方法,使用选择配置惯用手势信息;按照系统提示和自身习惯分别作出不同动作的手势,并拍摄记录每帧图像中每个手势的信息,开启计算机摄像头,获取视频流;对视频流中的每一帧图像进行亮度和对比度增强;获取增强后的图像中的手部关键点坐标;根据手部关键点坐标,对实时视频进行多尺度距离统一映射,消除因手部与摄像头的距离造成的图像中手部关键点之间的距离误差;根据多尺度距离统一映射后的手部关键点坐标对手势进行分类,每个可识别的分类手势对应人机交互的一种设定操作;根据分类结果进行相应操作。本发明具有轻量级、低门槛、多功能、高实时性的特点。
-
公开(公告)号:CN118196891A
公开(公告)日:2024-06-14
申请号:CN202410243640.9
申请日:2024-03-04
Applicant: 西安电子科技大学
IPC: G06V40/20 , G06V10/764 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/80 , G06V10/82 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/049
Abstract: 一种基于动作注意力引导的轻量级骨架动作分类方法、系统、设备及介质,方法:获取待训练骨架视频样本;构建基于动作注意力引导的轻量级骨架动作分类模型(AL‑GCN);通过自主学习空间卷积网络(AL‑SGCN)提取空间特征,对提取完空间特征的骨架序列进行注意力修正;通过多尺度时间融合卷积网络(MS‑TFCN)对骨架关节的长距离随机依赖进行建模,实现时间特征提取;对提取完时间特征的骨架序列进行注意力修正;使用跳转模块(Jump)和多流高斯权值选择算法提升AL‑GCN模型的动作识别准确率,将生成的骨架时空特征送入分类器;系统、设备及介质用于实现该方法;本发明通过GCN网络结构,实现基于骨骼数据的动作分类任务,并在已有数据集上取得了高精度的分类性能。
-
公开(公告)号:CN115330871A
公开(公告)日:2022-11-11
申请号:CN202210969855.X
申请日:2022-08-12
Applicant: 西安电子科技大学
Abstract: 本发明公开了一种无人机单目相机避障方法,包括;步骤1,设置无人机避障预警系统初始参数;步骤2,获取无人机装载的单目相机连续拍摄的可见光图像,将连续两帧图像作为配准基准图像,获得基准图像之间得配准关系表;步骤3,将output_matrix传入预警算法模块,计算基准图特征变化量cm_result,根据当前报警状态量,产生对应无人机避障状态信号;步骤4,将步骤3中产生得无人机避障状态信号累加至无报警信号统计量,当前进信号统计量达阈值时,系统发生报警;当后退信号统计量达阈值时系统取消报警;当转向统计量达到阈值时系统取消报警,转步骤1。本发明根据对特征变化结果的统计,对无人机的运动姿态进行简单的估计,并在运动方向上有障碍物接近时进行预警。
-
公开(公告)号:CN114550753A
公开(公告)日:2022-05-27
申请号:CN202210135633.8
申请日:2022-02-14
Applicant: 西安电子科技大学重庆集成电路创新研究院
Abstract: 本发明涉及一种基于深度学习的流式语音激活检测方法,先输入RAW声音波形信号片段,进行声学特征提取,结合SpecAugment数据增强算法计算得到提取后的声学特征张量;然后构建基于深度卷积神经网络模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用的作为语音激活检测模型权重参数;最后语音激活检测模型在执行预测时,将得到的声学特征张量作为输入,得到预测输出结果。对于算法模型的实时性、准确率、鲁棒性、和弹性伸缩性等,都具有良好的表现,能够为语音通信、语音识别、智能问答、视频会议实时字幕和实时翻译等应用场景提供关键技术支持,同时也可用于非实时性的场景,具有一举两得的效果。
-
公开(公告)号:CN114821052B
公开(公告)日:2024-08-23
申请号:CN202210444054.1
申请日:2022-04-25
Applicant: 西安电子科技大学
IPC: G06V10/26 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/084 , G06N3/09 , G06T7/00 , G06T19/20
Abstract: 本发明提出了一种基于自调节策略的三维脑肿瘤核磁共振图像分割方法,实现步骤为:(1)获取训练样本集和测试样本集;(2)构建自调节策略的脑肿瘤核磁共振图像分割网络模型G;(3)定义网络模型G的损失函数LSR;(4)对网络模型G进行迭代训练;(5)获取分割结果。本发明所构建的脑肿瘤图像分割方法,利用像素级分割网络提取浅层特征指导更深层网络的训练,促使深层网络获取更多肿瘤内部区域的细节信息;利用图像级分类网络获得的深层特征指导浅层网络的训练,以保留更多肿瘤核心区域的语义信息,并且分割和分类网络提取的特征互相监督,同时不引入额外的监督数据,进一步提高肿瘤核心区域的分割精度。
-
公开(公告)号:CN117979053A
公开(公告)日:2024-05-03
申请号:CN202410156804.4
申请日:2024-02-02
Applicant: 西安电子科技大学
IPC: H04N21/234 , G06T13/20 , G06T13/40 , H04N21/233 , H04N21/44 , H04N21/439 , G10L25/18 , G10L25/21 , G10L25/24 , G10L19/16
Abstract: 本发明公开了使用生成式说话头的视频课程增强方法,首先,对提供的教师图像或者短视频进行预处理;对完整的输入音频进行切片操作,将多帧的音频切片为一个特征块,再采用特征提取器提取输入音频中的特征;利用三维可变形模型提取三维人脸特征;将提取的音频特征和三维人脸特征作为说话头生成网络的输入;再将输出的特征进入神经渲染器进行渲染,得到说话头视频;最后,将说话头视频与屏幕录制视频融合,得到最终的视频课程。使用本发明方法生成的说话头视频嘴唇部分分辨率高,基本无扭曲变形,更生动真实。
-
-
-
-
-
-
-
-
-