-
公开(公告)号:CN108171009A
公开(公告)日:2018-06-15
申请号:CN201711392385.0
申请日:2017-12-21
Applicant: 东南大学
Abstract: 本发明公开了一种基于二维自回归模型参数估计的脑电信号间因果关系检测方法,包括以下步骤:(1)自回归模型进行阶数估计;(2)对原始信号进行加窗处理;(3)结合OPS算法对自回归模型进行参数估计;(4)所得自回归模型应用于Wiener‑Granger因果方法检测脑电信号间的因果关系。该方法最大限度地减少自回归模型参数估计中的干扰项,并提高参数估计结果的精度。
-
公开(公告)号:CN104573729B
公开(公告)日:2017-10-31
申请号:CN201510037296.9
申请日:2015-01-23
Applicant: 东南大学
IPC: G06K9/62
Abstract: 本发明公开一种基于核主成分分析网络的图像分类方法,包括以下步骤:(1)输入并预处理训练图像,得到训练图像的局部特征矩阵,(2)建立一个两层的核主成分分析网络,获得训练图像的主特征向量,(3)并用获得的主特征向量训练分类器;为了验证分类的正确性,建立测试核主成分分析网络对测试图像进行测试。本发明通过构造一个两层的核主成分分析网络,能够获得图像的非线性特征,使得图像特征的描述更精确,分类也更为准确,对于图像分类问题有着更高的正确率。
-
公开(公告)号:CN103150709A
公开(公告)日:2013-06-12
申请号:CN201310057984.2
申请日:2013-02-22
Applicant: 东南大学
Abstract: 本发明公开了一种基于伪牛顿法的四元数域彩色图像压缩感知恢复方法,将彩色图像二维矩阵转化到四元数域的二维矩阵,对四元数域的二维矩阵只进行一次压缩感知就能恢复原始的彩色图像,比传统的对彩色图像的RGB三个分量分别进行压缩感知要节约运算时间。本发明将四元数矩阵信号写成四元数的欧拉形式,用幅度和相位作为压缩感知优化问题新的约束项,比传统将彩色图像RGB三个通道的数据转化为三个实数二维矩阵分别处理的恢复结果更好。本发明的结果图像是按行进行压缩传感解码得到的图像与按列进行压缩传感解码得到的图像的均值,这样比单独按行处理或单独按列处理恢复的图像更为平滑。
-
公开(公告)号:CN116403559B
公开(公告)日:2025-01-24
申请号:CN202310330246.4
申请日:2023-03-30
Applicant: 东南大学
IPC: G10L13/02 , H04N21/4627 , H04N21/439 , H04N21/44
Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法,该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面,通过执行后端服务器训练完成的语音合成模型,完成语音的生成,再通过框架把语音传送到前端,其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石,既可以采用语音合成系统生成的语音,也可以采用任意用户上传的语音,以及任意一张人脸图片,通过JSP页面将语音和图片传送到后端服务器,后端加载训练完成的视频生成模型,完成视频的生成,再通过框架把视频传送到前端,从而实现了完整的文本驱动视频生成系统。
-
公开(公告)号:CN115460462A
公开(公告)日:2022-12-09
申请号:CN202211132338.3
申请日:2022-09-17
Applicant: 东南大学
IPC: H04N21/4402 , H04N21/845 , H04N21/439 , G10L13/02 , G10L21/0208 , G06V20/40 , G06V40/16 , G06F16/483
Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。
-
公开(公告)号:CN115168612A
公开(公告)日:2022-10-11
申请号:CN202210848061.8
申请日:2022-07-19
Applicant: 东南大学
IPC: G06F16/36 , G06F40/279
Abstract: 本发明公开了一种基于任意维度超复数嵌入的知识图谱表示方法,该方法主要特征在于将原始的知识图谱表示中的四元数嵌入的线性层替换成了超复数嵌入的线性层。具体包括以下步骤:1、知识图谱数据预处理,将传统知识图谱根据模型需求预处理为结构化数据;2、利用深度学习框架pytorch构造初步嵌入,并构建新的线性层,即超复数嵌入线性层,在图谱上学习实体和关系的向量表示;3、用知识图谱校验集进行校验,调整到最佳网络参数;4、对知识图谱测试集进行测试,统计结果。本发明通过改进一种已有的四元数知识图谱嵌入方法QuatE,引入超复数策略,降低了内存占用,减少了参数,同时保持了优异地嵌入结果。
-
公开(公告)号:CN114881089A
公开(公告)日:2022-08-09
申请号:CN202210622308.4
申请日:2022-06-02
Applicant: 东南大学
Abstract: 本发明公开了一种基于双分支融合模型的深度学习的抑郁脑电分类方法,包括以下步骤:(1)获取若干组健康人的大脑前额叶Fp1、Fpz和Fp2电极的脑电信号,(2)获取若干组轻度抑郁患者的大脑前额叶Fp1、Fpz和Fp2电极的脑电信号,(3)获取若干组中度抑郁患者的大脑前额叶Fp1、Fpz和Fp2电极的脑电信号,(4)以步骤(1)、(2)和(3)中的健康对照、轻度抑郁患者和中度抑郁患者的输入形式,对双分支融合模型进行训练学习,(5)将待分析窗口脑电信号转换成对应的小波时频图,输入步骤(4)中训练完成的双分支融合模型,完成该脑电信号的分析。该方法效果良好,能够区分出抑郁和健康以及抑郁程度。
-
公开(公告)号:CN110292377B
公开(公告)日:2022-04-01
申请号:CN201910495542.3
申请日:2019-06-10
Applicant: 东南大学
IPC: A61B5/372
Abstract: 本发明公开了一种基于瞬时频率和功率谱熵融合特征的脑电信号分析方法,包括以下步骤:(1)提取慢波睡眠期的正常脑电信号和早期帕金森病的脑电信号,分别计算其瞬时频率和功率谱熵,从而构成一个二维的时序特征;(2)将二维时序特征作为LSTM神经网络的输入并进行训练学习;(4)利用训练学习号的神经网络对待评估脑电信号进行分析。该方法效果良好,能区分帕金森病病人与正常人的脑电信号。
-
公开(公告)号:CN113539232A
公开(公告)日:2021-10-22
申请号:CN202110781210.9
申请日:2021-07-10
Applicant: 东南大学
IPC: G10L13/047 , G10L13/033 , G10L13/08 , G10L25/24 , G10L25/30 , G10L19/16 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。
-
公开(公告)号:CN113434727A
公开(公告)日:2021-09-24
申请号:CN202110852417.0
申请日:2021-07-27
Applicant: 东南大学
IPC: G06F16/71 , G06F16/735 , G06F16/783 , G06F16/74 , G06F40/258 , G06F40/279 , G06F40/58
Abstract: 本发明公开了一种新闻类长视频描述数据集的构建方法,该方法的主要特征在于把新闻类长视频构建成包含视频、视频标题、音频、中英文文本的数据集;该方法基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,使用FFmpeg完成音频的提取,并基于Python和selenium制作了一个语音识别工具来自动识别音频中包含的有效文本信息,最后通过脚本自动将视频片段、视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集,为长视频描述网络的研究以及长视频描述在为视频拟定标题方面的应用提供了支持。
-
-
-
-
-
-
-
-
-