一种针对视频行为检测的行为提议生成方法

    公开(公告)号:CN113298017B

    公开(公告)日:2024-04-23

    申请号:CN202110647905.8

    申请日:2021-06-10

    Applicant: 东南大学

    Abstract: 本发明公开一种针对视频行为检测的行为提议生成方法。在特征提取阶段,使用slow和fast两个通道分别提取视频的空间信息和时间信息;在行为提议生阶段,首先对提取到的空间信息和时间信息使用不同的预处理过程,并在两个不同阶段进行融合,接着,使用PFG layer为每个行为提议进行采样,生成提议特征,并分别输送到TEM和PEM用以预测边界可能性序列和边界匹配置信度图,最后,对预测结果进行置信度融合生成候选行为提议,并使用Soft‑NMS算法进行筛选。本发明能够在原始视频未裁剪的情况下,对未裁剪视频生成行为提议,分割出视频中包含行为的视频片段,定位出行为发生的起始时间和结束时间。

    一种基于单目RGB-D图像的类别级6D姿态估计方法

    公开(公告)号:CN114863573B

    公开(公告)日:2022-09-23

    申请号:CN202210801201.6

    申请日:2022-07-08

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于单目RGB‑D图像的类别级6D姿态估计方法,本方法引入RGB‑D图像特征融合机制,通过自注意力机制融合RGB‑D图像中目标实例的像素颜色特征和点云几何特征,获取目标实例更好的特征表达;并且引入类别形状隐式编码先验来克服同一类别下不同实例物体之间的形状差异。本方法首先对单幅RGB‑D图片进行目标检测与实例分割,结合深度信息计算出目标实例采样点的三维坐标;根据目标实例的类别输入对应的类别形状编码先验,基于一种多分支的网络结构,分别预测目标实例的点云模型和采样点的对应关系矩阵,进而运算出采样点对应的三维点云坐标;最后解算出目标物体的6D姿态。

    一种基于翻译匹配的跨语言属性级情感分类方法

    公开(公告)号:CN114238636A

    公开(公告)日:2022-03-25

    申请号:CN202111529633.8

    申请日:2021-12-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于翻译匹配的跨语言属性级情感分类方法,该方法能够利用语料资源丰富的源语言提升语料资源稀缺的目标语言属性级情感分类的性能,包括领域分类和属性情感分类两部分,在模型构建过程中基于模型特征设置了模型的超参,包括多头自注意力层数量、梯度反转超参值等。领域分类利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题,属性情感分类对属性序列表示和句子序列表示细粒度交互获得属性级句子表示,然后通过全连接层和softmax层获得最终情感预测结果。本发明提出的属性级情感分类模型构建代价小,并且对比试验验证结果表明,相较于其他模型,本发明提出的属性级情感分类模型结果最优。

    一种针对单目视频的三维人体姿态估计方法

    公开(公告)号:CN113313731A

    公开(公告)日:2021-08-27

    申请号:CN202110648734.0

    申请日:2021-06-10

    Applicant: 东南大学

    Abstract: 本发明公开一种针对单目视频的三维人体姿态估计方法。首先对输入的单目人体运动视频,采用级联金字塔结构的二维姿态检测器进行二维关节坐标提取,并输出为二维关节序列;根据二维关节序列极值点与前后帧差异构建噪声阈值约束,通过阈值滤波器对二维关节序列进行平滑降噪;然后对输入若干帧二维关节序列进行升维卷积;构建时序扩张卷积模型;再采用切片方法在每层卷积结构中进行残差连接并构建联合损失函数;最后利用时序卷积模型输出的三维关节坐标序列重建与单目人体运动视频相对应的三维姿态结果。本发明能够应对单目视频场景下的三维人体姿态估计需求,并能有效提升序列图像下的姿态估计效果,生成一段高精度的三维人体关节点运动视频。

    一种深度信息提取方法及装置

    公开(公告)号:CN107465911B

    公开(公告)日:2019-03-15

    申请号:CN201610382517.0

    申请日:2016-06-01

    Inventor: 姚莉 刘助奎

    Abstract: 本发明实施例公开了一种深度信息提取方法,包括:获取视频帧图像信息,所述视频帧图像信息包括第一帧图像信息和第二帧图像信息;提取所述第一帧图像中的边缘轮廓信息,并将所述第一帧图像信息与所述第二帧图像信息进行匹配得到稀疏光流;根据所述边缘轮廓信息和所述稀疏光流,计算得到所述第一帧图像信息与所述第二帧图像信息之间的稠密光流;将所述稠密光流转化为初始深度信息,并根据所述初始深度信息和所述视频帧图像信息处理得到最终深度信息。本发明实施例还公开了一种深度信息提取装置。采用本发明实施例,提高视频图像的深度信息提取的准确性。

    一种3D视频转多视点自由立体显示的方法

    公开(公告)号:CN104935908B

    公开(公告)日:2017-04-12

    申请号:CN201510178515.5

    申请日:2015-04-16

    Applicant: 东南大学

    Inventor: 姚莉

    Abstract: 本发明公开了一种自动将3D视频转换为多视点自由立体显示视频的方法,该方法有三个步骤,首先对3D视频左右视点图像进行分析并从中提取稀疏深度、边、显著性等信息,然后利用这些信息得到能量约束方程并对能量约束方程最小化进行数值求解即可得到从当前视点到新视点上的图像域非线性变形函数,最后利用得到的图像域非线性变形函数和3D视频左右视点图像合成新的视点图像。通过本发明方法能够自动的将3D视频转换为多视点自由立体显示视频,无需人工干预,节省人力成本,而且该方法使用图像域变形,避免了传统的基于深度图像绘制技术合成新视点方法需要稠密深度信息和需要对因为遮盖引起的空洞进行图像修补就能得到较好的新视点图像。

    一种利用轮廓感知的虚拟视点合成方法

    公开(公告)号:CN104837000B

    公开(公告)日:2017-03-15

    申请号:CN201510182858.9

    申请日:2015-04-17

    Applicant: 东南大学

    Inventor: 姚莉 许辉

    Abstract: 本发明公开了一种利用轮廓感知的虚拟视点合成方法,主要在多视点视频图像的显示中有重要作用。具体步骤包括:对参考视点的图像进行网格化处理,利用轮廓感知算法找到图像中物体网格轮廓;以物体网格轮廓为基础,利用3DWarping算法对其进行虚拟视点图像的映射操作;利用多个参考视点图像的选择算法找到合适的映射后图像进行融合;利用空洞填补算法对融合后的虚拟视点图像进行修复生成最终的虚拟视点图像。本发明可以减少虚拟视点合成时变换像素点的数量而从而减少的计算量、提高绘制速度,结合视频图像的场景物体特征可以使特定场景的虚拟视点合成速度达到理想效果,进而实现多视点电视的新视点实时合成。

    面向移动终端三维模型流式传输方法

    公开(公告)号:CN103260030B

    公开(公告)日:2016-11-23

    申请号:CN201310131264.6

    申请日:2013-04-16

    Applicant: 东南大学

    Inventor: 姚莉 李沛林

    Abstract: 本发明公开了一种面向移动终端三维模型流式传输方法,其首先利用MAPS算法对三维模型进行全局参数化,将三维模型分割成几何信息、参数信息和连通性信息,建立连续自适应近似半正则模型,然后对半正则模型进行逆改进的Loop小波变换得到基网格和偏移量,通过对偏移量进行零树编码,进一步进行熵编码。基于针对移动终端平台,对基网格再使用基于Edgebreaker算法的单分辨率压缩,最后在移动终端,通过网格简化的逆过程进行解码,绘制原始模型。本发明计算量适中,解压速度快,主要适用于移动网络上的PC机向移动终端传输复杂三维模型传输,对拓扑压缩率和几何压缩率都有一定的提高。

    一种基于JMS消息总线的服务器实时推送系统及方法

    公开(公告)号:CN103780680A

    公开(公告)日:2014-05-07

    申请号:CN201410004255.5

    申请日:2014-01-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于JMS消息总线的服务器实时推送系统及方法,用于LED隧道照明灯智能控制系统中,包括:串口通信模块、与串口通信模块相连接的JMS消息总线、与JMS消息总线相连接的数据处理模块、信息推送模块和控制转发模块、与数据处理模块相连接的JCS缓存,所述控制转发模块又与所述数据处理模块相连接。通过采用数据处理模块与JCS缓存中的数据进行比对,提高计算和处理速度;通过采用JMS消息总线和串口通信模块实现信息推送及远程控制,提高服务器的利用率和通讯的即时性;采用DIV+CSS布局的JSP界面作为系统界面,提高了服务器的信息解析、显示和传送速度,保证通讯即时性、友好交互性和高兼容性。

    一种用于模糊场景的神经辐射场新视角合成方法

    公开(公告)号:CN118279168A

    公开(公告)日:2024-07-02

    申请号:CN202410437278.9

    申请日:2024-04-12

    Applicant: 东南大学

    Abstract: 本发明提出了一种用于模糊场景的神经辐射场新视角合成方法,基于传统模糊的过程,本发明利用图像深度特征信息设计刚性模糊核,指导对模糊图像中光线的统一建模并计算光线颜色对最终合成模糊像素值的贡献。除此之外,本发明利用对抗生成网络判别器评估生成图像模糊程度,并结合重建损失对网络参数进行优化,最终生成高质量的清晰视角图像。

Patent Agency Ranking