-
公开(公告)号:CN111104929B
公开(公告)日:2023-05-09
申请号:CN201911423353.1
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学
IPC: G06V40/20 , G06T7/269 , G06V10/40 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于3D卷积和SPP的多模态动态手势识别方法,包括如下步骤:数据预处理,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32帧,每个样本维度为32×112×112;数据增强,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;神经网络训练,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;模型集成,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果;采用本发明技术方案能够提高手势识别的准确度。
-
公开(公告)号:CN111161325A
公开(公告)日:2020-05-15
申请号:CN201911416915.X
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学
Abstract: 本发明公开了一种基于卡尔曼滤波与LSTM的三维目标跟踪方法,包括以下步骤:对输入的三维目标边框进行轨迹初始化;使用恒定速率卡尔曼滤波算法对三维目标边框轨迹进行更新去噪并得到预测轨迹集合;利用匈牙利算法对预测轨迹和当前帧的三维目标边框进行数据关联并更新卡尔曼滤波器;将去噪的三维目标框序列用于训练长短时记忆网络;利用恒定速率卡尔曼滤波算法和匈牙利算法,与训练好的LSTM进行三维目标的跟踪与预测。传统基于卡尔曼滤波的目标跟踪方法,存在非线性拟合能力不足的问题,本方法与传统方法最大不同之处在于使用了深度学习模型LSTM的强力特征提取能力,能够拟合更复杂的运动模型,使得跟踪的结果更加平滑,同时提高了跟踪系统的速度。
-
公开(公告)号:CN111160295A
公开(公告)日:2020-05-15
申请号:CN201911416933.8
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学 , 广州视声智能股份有限公司
Abstract: 本发明公开一种基于区域引导和时空注意力的视频行人重识别方法,该方法先构建全局特征,基于时间注意力模型来计算视频流中每一帧所提取的全局特征,聚合得到全局特征向量;构建区域特征,将提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的引导帧去提取对应的区域特征,结合时空注意力模型计算获得区域特征向量;待识别行人视频流的特征向量由全局特征向量和区域特征向量结合获得,与选定地理区域的视频图像的行人的特征向量对比,得到距离最小的行人目标视频流并输出最终重识别匹配结果。本发明能够解决行人视频图像成像质量差,细节损失严重,行人部位缺失而特征提取困难导致的视频行人重识别准确率不高的问题。
-
公开(公告)号:CN103166731B
公开(公告)日:2016-03-02
申请号:CN201310042290.1
申请日:2013-02-01
Applicant: 广州视声智能科技有限公司 , 华南理工大学
Abstract: 本发明公开了一种室内监护紧急信息发送的抗干扰方法,包括:检测无线传感器所使用的无线信道的频率;判断所述频率是否存在于当前使用频率集合中,若是则:调整无线传感器所使用的无线信道的频率,使调整后的频率不存在于当前使用频率集合中;根据所述调整后的频率更新当前使用频率集合。本发明还公开了一种室内监护紧急信息发送的抗干扰系统。本发明能够实现提高室内无线通信的可靠性和安全性。
-
公开(公告)号:CN111104929A
公开(公告)日:2020-05-05
申请号:CN201911423353.1
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学
Abstract: 本发明公开了基于3D卷积和SPP的多模态动态手势识别方法,包括如下步骤:数据预处理,从RGB视频序列中提取光流特征和灰度特征,分别得到光流序列样本和灰度序列样本,并将每个光流序列样本和灰度序列样本及深度序列样本规整为32帧,每个样本维度为32×112×112;数据增强,通过平移、翻转、加噪及仿射变换,扩增序列样本数据集;神经网络训练,将灰度序列样本、光流序列样本、深度序列样本分别输入相同的网络结构,分别训练三个网络进行手势判别;模型集成,将三个网络对序列样本的分类结果进行集成,得到最终的判别结果;采用本发明技术方案能够提高手势识别的准确度。
-
公开(公告)号:CN108090521A
公开(公告)日:2018-05-29
申请号:CN201810031988.6
申请日:2018-01-12
Applicant: 广州视声智能科技有限公司 , 广州视声智能股份有限公司 , 华南理工大学
Abstract: 本发明实施例提供了一种生成式对抗网络模型的图像融合方法和判别器,其中,该方法包括:S1:获取到生成器生成的图像;S2:对所述图像进行分解得到颜色通道;S3:在通过预置卷积核对所述颜色通道进行单层卷积得到特征图后,对所述特征图进行融合得到融合后的所述图像;S4:循环执行S2和S3直至卷积次数等于预置次数。本发明在每一层卷积结束之后,都对图像各个颜色通道的特征图进行融合,再进行后续训练。在这种情况下,整个网络的鲁棒性得到了进一步增强。本发明实施例提供了一种生成式对抗网络模型。
-
公开(公告)号:CN107886162A
公开(公告)日:2018-04-06
申请号:CN201711123711.8
申请日:2017-11-14
Applicant: 华南理工大学 , 广州视声智能股份有限公司 , 广州视声智能科技有限公司
CPC classification number: G06N3/0454 , G06N3/08
Abstract: 本发明公开了一种基于WGAN模型的可变形卷积核方法,属于深度学习神经网络领域,包括以下步骤:S1、构造原始生成对抗网络模型;S2、构造沃瑟斯坦距离,作为对抗网络模型的评判指标;S3、初始化随机噪声,输入生成器中;S4、在WGAN模型中利用可变形卷积核对图像进行卷积;S5、将可变形卷积操作得到的损失函数输入生成器进行后续训练。本发明构建的基于WGAN模型的可变形卷积核方法,改变了判别器、生成器接收图片后的卷积方式,让判别器、生成器能够根据训练的情况自动地改变卷积核的大小,从而能够自适应地对数据集图像的特征进行学习,提高了整个网络训练的鲁棒性。
-
公开(公告)号:CN111160295B
公开(公告)日:2023-05-12
申请号:CN201911416933.8
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学 , 广州视声智能股份有限公司
IPC: G06V20/40 , G06V40/10 , G06V10/82 , G06N3/0464
Abstract: 本发明公开一种基于区域引导和时空注意力的视频行人重识别方法,该方法先构建全局特征,基于时间注意力模型来计算视频流中每一帧所提取的全局特征,聚合得到全局特征向量;构建区域特征,将提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的引导帧去提取对应的区域特征,结合时空注意力模型计算获得区域特征向量;待识别行人视频流的特征向量由全局特征向量和区域特征向量结合获得,与选定地理区域的视频图像的行人的特征向量对比,得到距离最小的行人目标视频流并输出最终重识别匹配结果。本发明能够解决行人视频图像成像质量差,细节损失严重,行人部位缺失而特征提取困难导致的视频行人重识别准确率不高的问题。
-
公开(公告)号:CN108197700A
公开(公告)日:2018-06-22
申请号:CN201810031539.1
申请日:2018-01-12
Applicant: 广州视声智能科技有限公司 , 广州视声智能股份有限公司 , 华南理工大学
Abstract: 本发明实施例公开了一种生成式对抗网络建模方法及装置,其中,该方法包括:S1:通过残差网络构建生成器和判别器;S2:向所述生成器输入噪声生成训练图像,将所述生成器的浅层神经网络的梯度叠加至所述生成器的深层神经网络中,得到叠加梯度后的生成器;S3:将所述训练图像输入所述判别器进行判别,得到沃瑟斯坦距离,再在所述判别器对所述训练图像进行卷积操作后,得到损失函数,并将所述损失函数反馈至叠加梯度后的所述生成器;S4:判断所述沃瑟斯坦距离是否小于预置距离值,若不小于,则重新执行S2,若小于,则结束。
-
公开(公告)号:CN111161325B
公开(公告)日:2023-05-23
申请号:CN201911416915.X
申请日:2019-12-31
Applicant: 广州视声智能科技有限公司 , 华南理工大学
IPC: G06T7/277 , G06N3/049 , G06N3/0442
Abstract: 本发明公开了一种基于卡尔曼滤波与LSTM的三维目标跟踪方法,包括以下步骤:对输入的三维目标边框进行轨迹初始化;使用恒定速率卡尔曼滤波算法对三维目标边框轨迹进行更新去噪并得到预测轨迹集合;利用匈牙利算法对预测轨迹和当前帧的三维目标边框进行数据关联并更新卡尔曼滤波器;将去噪的三维目标框序列用于训练长短时记忆网络;利用恒定速率卡尔曼滤波算法和匈牙利算法,与训练好的LSTM进行三维目标的跟踪与预测。传统基于卡尔曼滤波的目标跟踪方法,存在非线性拟合能力不足的问题,本方法与传统方法最大不同之处在于使用了深度学习模型LSTM的强力特征提取能力,能够拟合更复杂的运动模型,使得跟踪的结果更加平滑,同时提高了跟踪系统的速度。
-
-
-
-
-
-
-
-
-