一种基于DCT变换的分段编码信号的快速解码方法

    公开(公告)号:CN102215406B

    公开(公告)日:2012-10-24

    申请号:CN201110198330.2

    申请日:2011-07-15

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于DCT变换的分段编码信号的快速解码方法,属于信号处理技术领域。本发明将长度为N/5的信号序列{am},{bm},{cm},{dm},{em},(m=0,1,…,N/5–1)的DCT域系数{Ai},{Bi},{Ci},{Di},{Ei},(i=0,1,…,N/5–1)转换为长度为N的原始编码信号序列{xn},(n=0,1,…,N–1)的DCT域系数{Xk}(k=0,1,…,N–1),其中{Xk}的计算分成{X5i},{X5i+1},{X5i+2},{X5i+3},{X5i+4},(i=0,1,…,N/5–1)五个部分分别进行计算,减少了DCT变换次数,从而降低了解码过程的计算复杂度。相比现有技术,本发明方法具有较低的复杂度,解码实时性更好。

    一种文本驱动视频生成系统的实现方法

    公开(公告)号:CN116403559B

    公开(公告)日:2025-01-24

    申请号:CN202310330246.4

    申请日:2023-03-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法,该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面,通过执行后端服务器训练完成的语音合成模型,完成语音的生成,再通过框架把语音传送到前端,其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石,既可以采用语音合成系统生成的语音,也可以采用任意用户上传的语音,以及任意一张人脸图片,通过JSP页面将语音和图片传送到后端服务器,后端加载训练完成的视频生成模型,完成视频的生成,再通过框架把视频传送到前端,从而实现了完整的文本驱动视频生成系统。

    一种基于大模型的肝病电子病历分析与辅助决策方法

    公开(公告)号:CN119207774A

    公开(公告)日:2024-12-27

    申请号:CN202411318534.9

    申请日:2024-09-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于大模型的肝病电子病历分析与辅助决策方法,首先对患者的结构化疾病信息进行深度分析,结合广泛的肝病相关医学教材以及医生的临床建议,生成包含关键决策信息的Prompt。针对复杂的原发性肝癌病例,本方法会优先进行精确的分期诊断,确保方案制定的精准性,再构建包含医学之和和病人电子病历的Prompt。随后将这些构建的Prompt输入到本地部署的大语言模型中,模型通过推理与分析,考虑患者的病情,给出辅助医生诊断的决策输出。这些个性化决策建议不仅能够帮助医生更加准确地判断病情,还能协助他们选择最优的治疗路径,从而显著提升治疗效果。本发明有望推动医疗领域迈向智能化、数据驱动的精准医疗时代,为医生提供有力的决策支持。

    一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

    公开(公告)号:CN115460462A

    公开(公告)日:2022-12-09

    申请号:CN202211132338.3

    申请日:2022-09-17

    Applicant: 东南大学

    Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。

    一种基于任意维度超复数嵌入的知识图谱表示方法

    公开(公告)号:CN115168612A

    公开(公告)日:2022-10-11

    申请号:CN202210848061.8

    申请日:2022-07-19

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于任意维度超复数嵌入的知识图谱表示方法,该方法主要特征在于将原始的知识图谱表示中的四元数嵌入的线性层替换成了超复数嵌入的线性层。具体包括以下步骤:1、知识图谱数据预处理,将传统知识图谱根据模型需求预处理为结构化数据;2、利用深度学习框架pytorch构造初步嵌入,并构建新的线性层,即超复数嵌入线性层,在图谱上学习实体和关系的向量表示;3、用知识图谱校验集进行校验,调整到最佳网络参数;4、对知识图谱测试集进行测试,统计结果。本发明通过改进一种已有的四元数知识图谱嵌入方法QuatE,引入超复数策略,降低了内存占用,减少了参数,同时保持了优异地嵌入结果。

    一种网格网络的大脑磁共振图像肿瘤定位方法

    公开(公告)号:CN110706209B

    公开(公告)日:2022-04-29

    申请号:CN201910874099.0

    申请日:2019-09-17

    Applicant: 东南大学

    Abstract: 本发明提供了一种一种网格网络的大脑磁共振图像肿瘤自动定位方法,提出了一种新的三维物物体检测方法,采用一种浅层的三维卷积神经网络模型提取图像特征,采用网格方式进行分类定位。本发明包括:从基于残差网络的三维深度卷积神经网络的骨干网络中获得图像的特征,基于骨干网络获得的特征图像进行大脑肿瘤定位。本发明能较好地应用于大脑核磁共振图像,实现三维核磁共振图像中的肿瘤区域定位,定位结果准确,且计算资源代价较低。

    基于瞬时频率和功率谱熵融合特征的脑电信号分析方法

    公开(公告)号:CN110292377B

    公开(公告)日:2022-04-01

    申请号:CN201910495542.3

    申请日:2019-06-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于瞬时频率和功率谱熵融合特征的脑电信号分析方法,包括以下步骤:(1)提取慢波睡眠期的正常脑电信号和早期帕金森病的脑电信号,分别计算其瞬时频率和功率谱熵,从而构成一个二维的时序特征;(2)将二维时序特征作为LSTM神经网络的输入并进行训练学习;(4)利用训练学习号的神经网络对待评估脑电信号进行分析。该方法效果良好,能区分帕金森病病人与正常人的脑电信号。

    一种新闻类长视频描述数据集构建方法

    公开(公告)号:CN113434727A

    公开(公告)日:2021-09-24

    申请号:CN202110852417.0

    申请日:2021-07-27

    Applicant: 东南大学

    Abstract: 本发明公开了一种新闻类长视频描述数据集的构建方法,该方法的主要特征在于把新闻类长视频构建成包含视频、视频标题、音频、中英文文本的数据集;该方法基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,使用FFmpeg完成音频的提取,并基于Python和selenium制作了一个语音识别工具来自动识别音频中包含的有效文本信息,最后通过脚本自动将视频片段、视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集,为长视频描述网络的研究以及长视频描述在为视频拟定标题方面的应用提供了支持。

    一种基于弱监督的大脑磁共振图像分割方法

    公开(公告)号:CN112508844A

    公开(公告)日:2021-03-16

    申请号:CN202011060583.9

    申请日:2020-09-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于弱监督的大脑磁共振图像分割方法,包括以下步骤:使用超体素匹配方法实现待分割图像与参考图像之间的匹配,使得待分割图像的超体素获得标签,在待分割图像匹配的超体素中,选择高置信度的超体素组成种子区域;建立一种脑组织分割网络模型BTSNet,以选择的种子区域作为监督标签,指导网络训练,获得图像每个体素的类别概率;采用了深度种子区域增长方法,以当前种子区域为基础,使用卷积网络输出的类别概率,更新种子区域;最后,迭代脑组织分割网络与深度种子区域增长两个步骤,直至种子区域覆盖整个图像,输出分割结果。本发明能够在只使用少量参考图像的超体素级别标签的条件下实现脑MRI图像的准确分割。

Patent Agency Ranking