-
公开(公告)号:CN115019239B
公开(公告)日:2025-01-07
申请号:CN202210787330.4
申请日:2022-07-04
Applicant: 福州大学
IPC: G06V20/40 , G06V10/40 , G06V10/80 , G06V10/766 , G06V10/764 , G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/045
Abstract: 本发明涉及一种基于时空交叉注意力的实时动作定位方法。首先对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取,将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征。其次,对时序特征进行压缩,并将其与空间特征进行编码转换。计算时序特征与空间特征相互之间的潜在自适应,将其嵌入transformer自注意力进行特征的交叉表示,拼接特征并利用上下文注意力模块对特征进行融合。最后,通过回归、分类网络预测边界框位置以及运动类别,根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
-
公开(公告)号:CN117893935A
公开(公告)日:2024-04-16
申请号:CN202310867051.3
申请日:2023-07-14
Applicant: 福州大学
IPC: G06V20/40 , G06V10/40 , G06V10/764 , G06V10/82 , G06V10/74 , G06V10/774 , G06N3/0464 , G06N3/08
Abstract: 本发明提出一种基于多层次细化的U‑Transformer动作分割方法,用于分割视频动作,包括以下步骤;步骤S1:对输入视频进行通过BRP网络提取视频特征;步骤S2:首先将提取的视频特征输入U‑Transformer编码器进行编码,通过邻域注意力对视频短期信息与长期信息进行聚合,而后通过解码器对编码特征突出特征表示;步骤S3:通过分类、平滑、circle三种损失对动作分割效果进行评估优化;步骤S4:调整U‑Transformer结构中感受野重复步骤S2、S3逐步动作分割细化分割效果;步骤S5:根据特征生成视频动作分割序列;本发明能够有效地对视频动作进行分割。
-
公开(公告)号:CN115131710B
公开(公告)日:2024-09-03
申请号:CN202210785189.4
申请日:2022-07-05
Applicant: 福州大学
IPC: G06V20/40 , G06V10/762 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于多尺度特征融合注意力的实时动作检测方法,首先对数据集视频片段进行帧集划分,通过随机排序操作对其进行数据增强。其次,对输入视频片段进行关键帧的提取,获得的关键帧进行光流信息的提取。将获取到视频片段、关键帧以及关键帧光流分别输入ResNext101以及Darknet网络进行特征提取,并通过多尺度特征融合注意力模块对特征进行增强,拼接时空特征通过通道注意力进一步融合时空特征,最后通过分类以及回归得到类别边界框以及置信度,经过NMS(非极大值抑制),得出预测结果。
-
公开(公告)号:CN115131710A
公开(公告)日:2022-09-30
申请号:CN202210785189.4
申请日:2022-07-05
Applicant: 福州大学
IPC: G06V20/40 , G06V10/762 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于多尺度特征融合注意力的实时动作检测方法,首先对数据集视频片段进行帧集划分,通过随机排序操作对其进行数据增强。其次,对输入视频片段进行关键帧的提取,获得的关键帧进行光流信息的提取。将获取到视频片段、关键帧以及关键帧光流分别输入ResNext101以及Darknet网络进行特征提取,并通过多尺度特征融合注意力模块对特征进行增强,拼接时空特征通过通道注意力进一步融合时空特征,最后通过分类以及回归得到类别边界框以及置信度,经过NMS(非极大值抑制),得出预测结果。
-
公开(公告)号:CN115019239A
公开(公告)日:2022-09-06
申请号:CN202210787330.4
申请日:2022-07-04
Applicant: 福州大学
IPC: G06V20/40 , G06V10/40 , G06V10/80 , G06V10/766 , G06V10/764 , G06V40/20 , G06V10/82 , G06N3/04
Abstract: 本发明涉及一种基于时空交叉注意力的实时动作定位方法。首先对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取,将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征。其次,对时序特征进行压缩,并将其与空间特征进行编码转换。计算时序特征与空间特征相互之间的潜在自适应,将其嵌入transformer自注意力进行特征的交叉表示,拼接特征并利用上下文注意力模块对特征进行融合。最后,通过回归、分类网络预测边界框位置以及运动类别,根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
-
公开(公告)号:CN112287891A
公开(公告)日:2021-01-29
申请号:CN202011319889.1
申请日:2020-11-23
Applicant: 福州大学
Abstract: 本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法,首先通过人体骨骼点检测方法AlphaPose获取人体骨架,通过轻量化人脸检测模型检测人脸;接着将骨架编码转换为图像,通过神经网络分类器进行动作分类;将获取到的人脸框,先通过VGG‑A网络提取特征,再经过Segmentation网络进一步拟合得到精确的人脸位置,接着将人脸裁剪为多个区域,并使用CNN网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合多个区域的局部特征形成整体特征进行表情分类;最后融合动作和表情识别结果,通过LSTM网络得到最终的专注力分析结果。其针对学生行为构建了有效的运动特征,相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题。
-
公开(公告)号:CN112287891B
公开(公告)日:2022-06-10
申请号:CN202011319889.1
申请日:2020-11-23
Applicant: 福州大学
Abstract: 本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法,首先通过人体骨骼点检测方法AlphaPose获取人体骨架,通过轻量化人脸检测模型检测人脸;接着将骨架编码转换为图像,通过神经网络分类器进行动作分类;将获取到的人脸框,先通过VGG‑A网络提取特征,再经过Segmentation网络进一步拟合得到精确的人脸位置,接着将人脸裁剪为多个区域,并使用CNN网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合多个区域的局部特征形成整体特征进行表情分类;最后融合动作和表情识别结果,通过LSTM网络得到最终的专注力分析结果。其针对学生行为构建了有效的运动特征,相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题。
-
公开(公告)号:CN116863374A
公开(公告)日:2023-10-10
申请号:CN202310806223.6
申请日:2023-07-03
Applicant: 福州大学
IPC: G06V20/40 , G06F30/27 , G06N3/0464 , G06N3/0895 , G06F111/04
Abstract: 本发明提出了一种基于时间戳的弱监督动作分割方法,通过生成伪标签对所有的视频帧进行训练以获得完整的动作信息:针对时间戳训练基于动作时序关系通过优化帧集变化以估计动作边界,将时间戳的标签分配给相应的帧以生成伪标签完成模型训练;针对时间戳监督中边界预测问题,基于能量函数对视频帧置信度的约束采用边界优化损失,以确保在训练过程中能够学习动作的完整信息。
-
公开(公告)号:CN112257639A
公开(公告)日:2021-01-22
申请号:CN202011188103.7
申请日:2020-10-30
Applicant: 福州大学
Abstract: 本发明涉及一种基于人体骨架的学生学习行为识别方法,包括以下步骤:步骤S1:采集教室场景下的学生行为视频,并提取学生行为图像,构建图像数据集;步骤S2:根据得到图像数据集,采用AlphaPose提取人体骨骼关键点及其坐标和置信度;步骤S3:根据得到的人体骨骼关键点及其坐标和置信度,对人体骨骼关键点进行预处理,并依据人体部位进行编码转换为图像,并构建人体运动特征;步骤S4:将处理后的图像输入到神经网络分类器中进行分类,得到分类结果。本发明能够有效地对学生行为进行识别。
-
-
-
-
-
-
-
-