-
公开(公告)号:CN114757822A
公开(公告)日:2022-07-15
申请号:CN202210663896.6
申请日:2022-06-14
Abstract: 本发明公开一种基于双目的人体三维关键点检测方法及系统,该方法包括:步骤一:通过采用YOLOv5目标检测算法的目标检测模块分别获得左、右视场图像中的人体矩形框;步骤二:扣取人体矩形框对应的人体图像,通过人体二维关键点识别算法提取左、右视场图像中人体各关键点的二维热力图;步骤三:将左、右人体二维关键点热力图反向投影到三维空间,得到三维反投影热力图;步骤四,将三维反投影热力图输入三维卷积编解码网络,通过编解码操作得到三维关键点热力图;步骤五,三维关键点热力图中每一通道通过自变量最大值软操作得到该通道表示的三维关键点所在坐标,最终得到全部人体三维关键点坐标。本发明具有较高的可行性和实用性。
-
公开(公告)号:CN113936339B
公开(公告)日:2022-04-22
申请号:CN202111537924.1
申请日:2021-12-16
Abstract: 本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控系统。
-
公开(公告)号:CN113936339A
公开(公告)日:2022-01-14
申请号:CN202111537924.1
申请日:2021-12-16
Abstract: 本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控系统。
-
公开(公告)号:CN114648723B
公开(公告)日:2024-08-02
申请号:CN202210454687.0
申请日:2022-04-28
IPC: G06V20/40 , G06V20/52 , G06N3/0464 , G06N3/0895 , G06N3/084
Abstract: 本发明涉及智能视频监控及深度学习领域,尤其涉及一种基于时间一致性对比学习的动作规范性检测方法和装置,该方法为:首先将第一数量标注和第二数量未标注的通过摄像头采集的视频构建数据集,第一数量小于第二数量;然后将未标注视频经过强弱数据增强后提取特征,再输入时间一致性行为对齐网络,输出特征图和不同样本间相似动作起始与结束帧集合,映射集合在特征图上对应子特征图,构造同类与不同类子特征图样本,送入对比学习网络提取时空判别性特征;再将第一数量标注视频送入预训练后的网络进行迁移学习,输出行为类别;最后通过帧间行为类别变化判断行为规范性,若不规范则发出预警。
-
公开(公告)号:CN114757822B
公开(公告)日:2022-11-04
申请号:CN202210663896.6
申请日:2022-06-14
Abstract: 本发明公开一种基于双目的人体三维关键点检测方法及系统,该方法包括:步骤一:通过采用YOLOv5目标检测算法的目标检测模块分别获得左、右视场图像中的人体矩形框;步骤二:扣取人体矩形框对应的人体图像,通过人体二维关键点识别算法提取左、右视场图像中人体各关键点的二维热力图;步骤三:将左、右人体二维关键点热力图反向投影到三维空间,得到三维反投影热力图;步骤四,将三维反投影热力图输入三维卷积编解码网络,通过编解码操作得到三维关键点热力图;步骤五,三维关键点热力图中每一通道通过自变量最大值软操作得到该通道表示的三维关键点所在坐标,最终得到全部人体三维关键点坐标。本发明具有较高的可行性和实用性。
-
公开(公告)号:CN114648723A
公开(公告)日:2022-06-21
申请号:CN202210454687.0
申请日:2022-04-28
Abstract: 本发明涉及智能视频监控及深度学习领域,尤其涉及一种基于时间一致性对比学习的动作规范性检测方法和装置,该方法为:首先将第一数量标注和第二数量未标注的通过摄像头采集的视频构建数据集,第一数量小于第二数量;然后将未标注视频经过强弱数据增强后提取特征,再输入时间一致性行为对齐网络,输出特征图和不同样本间相似动作起始与结束帧集合,映射集合在特征图上对应子特征图,构造同类与不同类子特征图样本,送入对比学习网络提取时空判别性特征;再将第一数量标注视频送入预训练后的网络进行迁移学习,输出行为类别;最后通过帧间行为类别变化判断行为规范性,若不规范则发出预警。
-
公开(公告)号:CN118691951A
公开(公告)日:2024-09-24
申请号:CN202410679654.5
申请日:2024-05-29
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多模型混合的文本视频一致性评估方法和装置,属于文本视频一致性评估技术领域,包括:从文本标注中获取视频问答对,从视频数据中获取目标运动轨迹,将视频问答对、目标运动轨迹和视频数据输入微调多模态大模型,得到预测回答,根据预测回答和视频问答对得到第一得分;将视频数据通过基于强化学习的图像字幕提取模型得到预测文本,根据预测文本与文本标注计算第二得分;对第一得分和第二得分加权融合,得到最终得分,根据最终得分所在质量等级与人工评估所在质量等级的相符情况实现对文本视频一致性的评估。本发明通过融合两个模型在语义特征空间和视觉特征空间的文本视频一致性得分,提高了文本视频一致性评估的准确率。
-
公开(公告)号:CN113793380B
公开(公告)日:2024-04-26
申请号:CN202110995023.0
申请日:2021-08-27
Applicant: 之江实验室
Abstract: 本发明公开了一种基于单目相机的头部三维坐标的摔倒检测方法,首先估计单目视频中头部三维坐标,再根据头部三维坐标的变化检测人员是否摔倒。单目头部三维坐标估计通过相机标定获得相机内参矩阵,通过头部检测获得头部在图像中的矩形框,利用相机内参、头部矩形框和预设的头部基本几何参数构建头部三维坐标求解方程,求解在相机坐标系下的头部三维坐标。通过系统标定获得世界坐标系到相机坐标系的变换矩阵,经过坐标变换,得到在世界坐标系下的头部三维坐标。当头部坐标z分量小于一定阈值时判定人员为摔倒状态。本方法利用单个摄像头即可估计头部的三维坐标,并判断人员是否摔倒,硬件成本低,可广泛应用于智能监控等领域。
-
公开(公告)号:CN116580767B
公开(公告)日:2024-03-12
申请号:CN202310461742.3
申请日:2023-04-26
Applicant: 之江实验室 , 中国科学院东北地理与农业生态研究所
Abstract: 一种基于自监督与Transformer的基因表型预测方法,通过基因芯片技术和人工测量分别获取农作物SNP数据及对应表型样本,以构建数据集;首先,将SNP数据预处理及编码后,送入自监督模型,并通过DeepLIFT算法,计算各SNP位点对表型的贡献得分;然后,使用该SNP各位点贡献度得分改进Transformer嵌入编码方式,并结合自注意力机制,有效提取基因与表型相关性特征图;最后将特征图送入预测回归头预测表型值。本发明还包括一种基于自监督与Transformer的基因表型预测系统。本发明使Transformer模型获取SNP位点贡献度先验知识,更关注贡献度高的位点,减少维度干扰,有效提高预测准确度,适用于农作物基因表型预测。
-
公开(公告)号:CN117252930A
公开(公告)日:2023-12-19
申请号:CN202311222096.1
申请日:2023-09-21
Applicant: 之江实验室
IPC: G06T7/80
Abstract: 本发明公开了一种大型展厅多相机监控系统内外参标定方法和系统,包括以下步骤:获取多相机视频数据作为标定数据;对标定数据进行预处理;进行单目相机标定得到相机内参初值;使用链式法进行相机外参初步估计得到每个相机相对于世界坐标系的位姿作为相机外参初值;进行标定板位姿初步估计得到每个特定姿态下的标定板位姿初值;构造总重投影误差作为目标函数并引入基于畸变参数的正则项;使用相机内参初值、相机外参初值和标定位板位姿初值,最小化带有正则项的目标函数以求解全局优化问题,得到最优相机内外参数。本发明能够减小人工成本和风险,提高相机内外参标定的准确性,适用于高空悬挂或处于开阔空间中的多相机系统内外参标定应用场景。
-
-
-
-
-
-
-
-
-