-
公开(公告)号:CN109116338A
公开(公告)日:2019-01-01
申请号:CN201810957532.2
申请日:2018-08-22
Applicant: 东南大学
IPC: G01S7/539
Abstract: 一种基于四阶累积量的宽带DOA估计算法,本发明使用宽带信号源作DOA估计,结合压缩感知原理,将宽带信源分解为若干子频带,并逐个估计得各子频带的空间谱,然后求解其算术平均值来获得更精确的DOA估计。其中对于各子频带分量,采用其四阶累积量来构造信号子空间,从而达到抑制噪声项的目的。其中压缩感知原理在本发明中的体现在于将DOA估计问题转化为一个优化问题,对信号各快拍分量施加QUOTE 范数构造一个与原信号稀疏度相同的向量,并通过施加正则化参数QUOTE 将其嵌入目标函数来达到稀疏性条件和数据解的平衡。最后可以通过对目标函数的优化来完成最终的DOA估计。相比现有技术,本发明在保证算法复杂度的前提下,抑制了噪声项,提高了DOA估计精度。
-
公开(公告)号:CN109035197A
公开(公告)日:2018-12-18
申请号:CN201810552230.7
申请日:2018-05-31
Applicant: 东南大学
CPC classification number: G06T7/0012 , G06T7/11 , G06T2207/10081 , G06T2207/20081 , G06T2207/20084
Abstract: 本发明公开了一种基于三维卷积神经网络的CT造影图像肾脏肿瘤分割方法。该方法首先粗略分割出CT造影图像中的肾脏区域,并对其中的肾脏和肿瘤分别标注,生成数据集,然后将训练集送入基于金字塔池化和逐步特征增强模块的卷积神经网络中训练,得到训练模型,利用得到的训练模型对新的肾脏数据进行预测,得到肾脏肿瘤的分割掩模。本发明还提出一种基于三维卷积神经网络的CT造影图像肾脏肿瘤分割系统,本发明主要解决了肾脏肿瘤难图像分割的问题,通过本发明能够直接得到肾脏肿瘤的分割掩模。
-
公开(公告)号:CN103150709B
公开(公告)日:2016-10-26
申请号:CN201310057984.2
申请日:2013-02-22
Applicant: 东南大学
Abstract: 本发明公开了一种基于伪牛顿法的四元数域彩色图像压缩感知恢复方法,将彩色图像二维矩阵转化到四元数域的二维矩阵,对四元数域的二维矩阵只进行一次压缩感知就能恢复原始的彩色图像,比传统的对彩色图像的RGB三个分量分别进行压缩感知要节约运算时间。本发明将四元数矩阵信号写成四元数的欧拉形式,用幅度和相位作为压缩感知优化问题新的约束项,比传统将彩色图像RGB三个通道的数据转化为三个实数二维矩阵分别处理的恢复结果更好。本发明的结果图像是按行进行压缩传感解码得到的图像与按列进行压缩传感解码得到的图像的均值,这样比单独按行处理或单独按列处理恢复的图像更为平滑。
-
公开(公告)号:CN104573729A
公开(公告)日:2015-04-29
申请号:CN201510037296.9
申请日:2015-01-23
Applicant: 东南大学
IPC: G06K9/62
Abstract: 本发明公开一种基于核主成分分析网络的图像分类方法,包括以下步骤:(1)输入并预处理训练图像,得到训练图像的局部特征矩阵,(2)建立一个两层的核主成分分析网络,获得训练图像的主特征向量,(3)并用获得的主特征向量训练分类器;为了验证分类的正确性,建立测试核主成分分析网络对测试图像进行测试。本发明通过构造一个两层的核主成分分析网络,能够获得图像的非线性特征,使得图像特征的描述更精确,分类也更为准确,对于图像分类问题有着更高的正确率。
-
公开(公告)号:CN115460462B
公开(公告)日:2024-10-01
申请号:CN202211132338.3
申请日:2022-09-17
Applicant: 东南大学
IPC: H04N21/4402 , H04N21/845 , H04N21/439 , G10L13/02 , G10L21/0208 , G06V20/40 , G06V40/16 , G06F16/483
Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。
-
公开(公告)号:CN118552407A
公开(公告)日:2024-08-27
申请号:CN202410740303.0
申请日:2024-06-07
Applicant: 东南大学
IPC: G06T3/4053 , G06N3/048 , G06N3/045 , G06N3/0475 , G06N3/094 , G06N3/084 , G06V10/74
Abstract: 本发明公开了一种基于隐式神经表示的心脏磁共振图像层间超分辨率方法,包括:对已有的心脏磁共振厚层短轴图像进行变换,根据超分辨率的倍数得到目标大小的稀疏薄层图像;根据稀疏薄层图像和心脏磁共振长轴图像(包括二腔心、三腔心和四腔心图像)训练一个隐式神经场;使用训练好的隐式神经场对目标薄层图像的所有坐标点进行灰度值的预测,并在预测时采用投票机制,得到最终的心脏磁共振薄层图像。本发明能在缺少用于训练的配对的心脏磁共振厚层与薄层数据集时,对已有的心脏磁共振厚层图像实现层间的×3和×5的超分辨率,得到对应的心脏磁共振薄层图像。
-
公开(公告)号:CN113823308B
公开(公告)日:2023-11-28
申请号:CN202111100709.5
申请日:2021-09-18
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0232 , G10L21/0264 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 评估、短时客观可懂度等多个评估指标上均取得本发明提供了一种仅使用单个带噪语音样 了更好的结果。本进行语音去噪的方法。该方法包括以下步骤:真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失(1)对于干净的语音信号,分别叠加合成噪声和
-
公开(公告)号:CN116208801A
公开(公告)日:2023-06-02
申请号:CN202310242449.8
申请日:2023-03-14
Applicant: 东南大学
IPC: H04N21/439 , H04N21/44 , G10L13/08 , G10L13/02 , H04N21/2187 , H04N21/478
Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。
-
公开(公告)号:CN110909207B
公开(公告)日:2023-06-02
申请号:CN201910845200.X
申请日:2019-09-08
Applicant: 东南大学
IPC: G06F16/74 , G06F16/783 , G06T5/40 , G06T7/90
Abstract: 本发明公开了一种包含手语的新闻类视频描述数据集构建方法,该方法把新闻类视频构建成包含音频、视频、手语、语言描述的数据集;该方法利用色差直方图算法进行视频的自动分割,并使用ffmpeg完成视频信息的自动提取,最后构建图形用户界面并根据用户输入信息自动生成视频描述与视频信息json文件。本发明通过利用新闻视频数据与手语信息构建数据集,为视频描述网络的研究以及视频描述技术在残疾人士服务中的应用提供了支持。
-
公开(公告)号:CN115205920A
公开(公告)日:2022-10-18
申请号:CN202210228919.0
申请日:2022-03-08
Applicant: 东南大学
IPC: G06V40/16 , G06V20/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G10L21/0272
Abstract: 本发明公开了一种利用新闻发布会视频制作包含戴口罩人脸的语音分离数据集的方法,该方法:把新闻发布会视频裁剪为图像、视频以及语音三个模态的数据集合,基于戴口罩检测预训练模型,获取到每一帧都戴口罩的画面,从而组成戴口罩的视频,以此为数据源,再基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪与分类的过程全自动。本发明通过利用自定义的人脸库裁剪新闻发布会视频中的多模态数据,提高构建包含戴口罩人脸的语音分离数据集的效率。
-
-
-
-
-
-
-
-
-