-
公开(公告)号:CN118038550B
公开(公告)日:2024-12-13
申请号:CN202410162481.X
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06V10/80 , G06V20/40 , G06N3/0464 , G06N3/08 , G06V10/764 , G06F17/16 , G06F17/18
Abstract: 本发明提供一种基于ViT和ST‑GCN的红外人体行为识别方法,其包括获取红外视频数据;构建Lite‑ViTAPose姿态估计模块,利用Lite‑ViTAPose姿态估计模块提取红外视频中每一帧的人体姿态,将提取到的人体姿态经过处理、转换形成骨骼序列,作为网络输入;其中,Lite‑ViTAPose姿态估计模块包括基于多尺度特征融合的MobileViT模块和基于残差双头注意力机制的多人姿态估计器DAs‑MPPE;构建2s‑ViTGCN行为估计模块,基于输入的骨骼序列,利用2s‑ViTGCN提取该骨骼序列的时空特征,从而识别出人体的动作;其中,2s‑ViTGCN行为估计模块包括双流神经网络、ViTGCN块以及ViTGCN层。本发明将Lite‑ViTAPose模块和2s‑ViTGCN行为估计模块结合进行红外人体行为识别,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN117877122A
公开(公告)日:2024-04-12
申请号:CN202410162484.3
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06T3/4053 , G06V10/764 , G06V10/774 , G06V10/80 , G06T3/4038 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种基于轻量型ViT和注意力机制的红外人体姿态估计方法,其包括获取红外图像数据;构建MSF‑MobileViT网络模型,通过MSF‑MobileViT网络模型提取得到红外图像数据的高分辨率且语义信息丰富的特征表示;构建DAs‑MPPE网络模型,通过DAs‑MPPE网络模型生成L来编码肢体之间的关联度,再生成S来预测关节点的位置;在两个网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,稳定的选取无标签数据添加伪标签。本发明将MSF‑MobileViT网络模型和DAs‑MPPE网络模型结合进行红外人体姿态估计,从而定位图像中所有人的关节点和肢体位置,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN117877122B
公开(公告)日:2024-12-17
申请号:CN202410162484.3
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06T3/4053 , G06V10/764 , G06V10/774 , G06V10/80 , G06T3/4038 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种基于轻量型ViT和注意力机制的红外人体姿态估计方法,其包括获取红外图像数据;构建MSF‑MobileViT网络模型,通过MSF‑MobileViT网络模型提取得到红外图像数据的高分辨率且语义信息丰富的特征表示;构建DAs‑MPPE网络模型,通过DAs‑MPPE网络模型生成L来编码肢体之间的关联度,再生成S来预测关节点的位置;在两个网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,稳定的选取无标签数据添加伪标签。本发明将MSF‑MobileViT网络模型和DAs‑MPPE网络模型结合进行红外人体姿态估计,从而定位图像中所有人的关节点和肢体位置,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN118038550A
公开(公告)日:2024-05-14
申请号:CN202410162481.X
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06V10/80 , G06V20/40 , G06N3/0464 , G06N3/08 , G06V10/764 , G06F17/16 , G06F17/18
Abstract: 本发明提供一种基于ViT和ST‑GCN的红外人体行为识别方法,其包括获取红外视频数据;构建Lite‑ViTAPose姿态估计模块,利用Lite‑ViTAPose姿态估计模块提取红外视频中每一帧的人体姿态,将提取到的人体姿态经过处理、转换形成骨骼序列,作为网络输入;其中,Lite‑ViTAPose姿态估计模块包括基于多尺度特征融合的MobileViT模块和基于残差双头注意力机制的多人姿态估计器DAs‑MPPE;构建2s‑ViTGCN行为估计模块,基于输入的骨骼序列,利用2s‑ViTGCN提取该骨骼序列的时空特征,从而识别出人体的动作;其中,2s‑ViTGCN行为估计模块包括双流神经网络、ViTGCN块以及ViTGCN层。本发明将Lite‑ViTAPose模块和2s‑ViTGCN行为估计模块结合进行红外人体行为识别,有效克服了现有红外人体行为识别技术中存在的弊端。
-
-
-