一种针对视频行为检测的行为提议生成方法

    公开(公告)号:CN113298017B

    公开(公告)日:2024-04-23

    申请号:CN202110647905.8

    申请日:2021-06-10

    Applicant: 东南大学

    Abstract: 本发明公开一种针对视频行为检测的行为提议生成方法。在特征提取阶段,使用slow和fast两个通道分别提取视频的空间信息和时间信息;在行为提议生阶段,首先对提取到的空间信息和时间信息使用不同的预处理过程,并在两个不同阶段进行融合,接着,使用PFG layer为每个行为提议进行采样,生成提议特征,并分别输送到TEM和PEM用以预测边界可能性序列和边界匹配置信度图,最后,对预测结果进行置信度融合生成候选行为提议,并使用Soft‑NMS算法进行筛选。本发明能够在原始视频未裁剪的情况下,对未裁剪视频生成行为提议,分割出视频中包含行为的视频片段,定位出行为发生的起始时间和结束时间。

    一种基于单目RGB-D图像的类别级6D姿态估计方法

    公开(公告)号:CN114863573B

    公开(公告)日:2022-09-23

    申请号:CN202210801201.6

    申请日:2022-07-08

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于单目RGB‑D图像的类别级6D姿态估计方法,本方法引入RGB‑D图像特征融合机制,通过自注意力机制融合RGB‑D图像中目标实例的像素颜色特征和点云几何特征,获取目标实例更好的特征表达;并且引入类别形状隐式编码先验来克服同一类别下不同实例物体之间的形状差异。本方法首先对单幅RGB‑D图片进行目标检测与实例分割,结合深度信息计算出目标实例采样点的三维坐标;根据目标实例的类别输入对应的类别形状编码先验,基于一种多分支的网络结构,分别预测目标实例的点云模型和采样点的对应关系矩阵,进而运算出采样点对应的三维点云坐标;最后解算出目标物体的6D姿态。

    一种基于强化蒸馏的跨语言属性级情感分类方法

    公开(公告)号:CN114429143A

    公开(公告)日:2022-05-03

    申请号:CN202210044125.9

    申请日:2022-01-14

    Applicant: 东南大学

    Abstract: 本发明提供了一种基于强化蒸馏的跨语言属性级情感分类方法,基于源语言语料训练一个教师网络,基于知识蒸馏框架将源语言语料中的属性情感信息迁移到目标分类器中;采用序列选择器根据特定的属性从目标翻译句子序列中选择属性情感相关的信息,向目标分类器提供去噪后的句子序列表示;使用自注意力层构建基于跨语言蒸馏的目标分类器,建模属性序列与去噪后的目标翻译句子序列间的细粒度交互。本发明缓解了翻译语料与真实语料之间的领域偏差问题,目标分类器具有更强的泛化能力。本发明能够充分利用源语言与目标翻译中有效的属性情感信息,同时更好地建模句子与属性之间的细粒度交互。本发明在情感分类的各方面性能都较基线方法有了一定提升。

    一种基于翻译匹配的跨语言属性级情感分类方法

    公开(公告)号:CN114238636A

    公开(公告)日:2022-03-25

    申请号:CN202111529633.8

    申请日:2021-12-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于翻译匹配的跨语言属性级情感分类方法,该方法能够利用语料资源丰富的源语言提升语料资源稀缺的目标语言属性级情感分类的性能,包括领域分类和属性情感分类两部分,在模型构建过程中基于模型特征设置了模型的超参,包括多头自注意力层数量、梯度反转超参值等。领域分类利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题,属性情感分类对属性序列表示和句子序列表示细粒度交互获得属性级句子表示,然后通过全连接层和softmax层获得最终情感预测结果。本发明提出的属性级情感分类模型构建代价小,并且对比试验验证结果表明,相较于其他模型,本发明提出的属性级情感分类模型结果最优。

    一种针对单目视频的三维人体姿态估计方法

    公开(公告)号:CN113313731A

    公开(公告)日:2021-08-27

    申请号:CN202110648734.0

    申请日:2021-06-10

    Applicant: 东南大学

    Abstract: 本发明公开一种针对单目视频的三维人体姿态估计方法。首先对输入的单目人体运动视频,采用级联金字塔结构的二维姿态检测器进行二维关节坐标提取,并输出为二维关节序列;根据二维关节序列极值点与前后帧差异构建噪声阈值约束,通过阈值滤波器对二维关节序列进行平滑降噪;然后对输入若干帧二维关节序列进行升维卷积;构建时序扩张卷积模型;再采用切片方法在每层卷积结构中进行残差连接并构建联合损失函数;最后利用时序卷积模型输出的三维关节坐标序列重建与单目人体运动视频相对应的三维姿态结果。本发明能够应对单目视频场景下的三维人体姿态估计需求,并能有效提升序列图像下的姿态估计效果,生成一段高精度的三维人体关节点运动视频。

    一种基于JMS消息总线的服务器实时推送系统及方法

    公开(公告)号:CN103780680A

    公开(公告)日:2014-05-07

    申请号:CN201410004255.5

    申请日:2014-01-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于JMS消息总线的服务器实时推送系统及方法,用于LED隧道照明灯智能控制系统中,包括:串口通信模块、与串口通信模块相连接的JMS消息总线、与JMS消息总线相连接的数据处理模块、信息推送模块和控制转发模块、与数据处理模块相连接的JCS缓存,所述控制转发模块又与所述数据处理模块相连接。通过采用数据处理模块与JCS缓存中的数据进行比对,提高计算和处理速度;通过采用JMS消息总线和串口通信模块实现信息推送及远程控制,提高服务器的利用率和通讯的即时性;采用DIV+CSS布局的JSP界面作为系统界面,提高了服务器的信息解析、显示和传送速度,保证通讯即时性、友好交互性和高兼容性。

    一种基于翻译匹配的跨语言属性级情感分类方法

    公开(公告)号:CN114238636B

    公开(公告)日:2024-12-06

    申请号:CN202111529633.8

    申请日:2021-12-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于翻译匹配的跨语言属性级情感分类方法,该方法能够利用语料资源丰富的源语言提升语料资源稀缺的目标语言属性级情感分类的性能,包括领域分类和属性情感分类两部分,在模型构建过程中基于模型特征设置了模型的超参,包括多头自注意力层数量、梯度反转超参值等。领域分类利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题,属性情感分类对属性序列表示和句子序列表示细粒度交互获得属性级句子表示,然后通过全连接层和softmax层获得最终情感预测结果。本发明提出的属性级情感分类模型构建代价小,并且对比试验验证结果表明,相较于其他模型,本发明提出的属性级情感分类模型结果最优。

    一种针对单目视频的三维人体姿态估计方法

    公开(公告)号:CN113313731B

    公开(公告)日:2024-11-19

    申请号:CN202110648734.0

    申请日:2021-06-10

    Applicant: 东南大学

    Abstract: 本发明公开一种针对单目视频的三维人体姿态估计方法。首先对输入的单目人体运动视频,采用级联金字塔结构的二维姿态检测器进行二维关节坐标提取,并输出为二维关节序列;根据二维关节序列极值点与前后帧差异构建噪声阈值约束,通过阈值滤波器对二维关节序列进行平滑降噪;然后对输入若干帧二维关节序列进行升维卷积;构建时序扩张卷积模型;再采用切片方法在每层卷积结构中进行残差连接并构建联合损失函数;最后利用时序卷积模型输出的三维关节坐标序列重建与单目人体运动视频相对应的三维姿态结果。本发明能够应对单目视频场景下的三维人体姿态估计需求,并能有效提升序列图像下的姿态估计效果,生成一段高精度的三维人体关节点运动视频。

    一种针对图像序列的三维重建方法

    公开(公告)号:CN113284230B

    公开(公告)日:2023-12-19

    申请号:CN202110638233.4

    申请日:2021-06-08

    Applicant: 东南大学

    Abstract: 本发明提供了一种针对图像序列的三维重建方法,针对未知排列的图像序列对,利用局部优化的思想和面片模型方案来改善稀疏重建和稠密重建中存在的问题。稀疏重建时,提出一种局部区域划分的匹配策略,并结合匹配策略使用基于最大生成树思想的增量式稀疏重建方案得出稀疏点云;稠密重建中,提出一种基于立体匹配的面片扩散优化方案进行面片扩散,通过立体匹配中的传播和随机搜索过程寻找到待扩散面片,最终得到高精度的稠密重建模型。本发明能够应对多图像序列下的重建需求,并能有效地提升图像序列的稀疏重建效果和稠密重建效果,生成一个高质量的三维重建模型。

    一种基于多模态主动学习的中文分词方法

    公开(公告)号:CN115496064A

    公开(公告)日:2022-12-20

    申请号:CN202210796242.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于多模态主动学习的中文分词方法,使用音频特征作为模型补充输入,利用声学信息帮助分词。为了减少音频特征工程工作量,仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息,利用异构图注意力神经网络实现依存句法结构图节点特征更新,使用注意力机制融合文本特征和句法结构特征得到句法文本特征,以缓解标注语料匮乏问题。本发明使用了主动学习策略,构造多样性预测模块,预测未标注样本所含信息量,选择富含信息的未标注样本进行人工标注,与已标注样本一起作为训练数据迭代提升模型性能。本发明在减少数据标注代价的基础上,在中文分词的各方面性能都较其他基线方法有了一定提升。

Patent Agency Ranking