基于概率表征学习的视觉文本多模态动物姿态估计方法

    公开(公告)号:CN119723668A

    公开(公告)日:2025-03-28

    申请号:CN202411871792.X

    申请日:2024-12-18

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于概率表征学习的视觉文本多模态动物姿态估计方法,所述的方法包括,获取图像数据集并提取图像特征;构建属性描述集,并对所述的文本关键点类别名进行转换并获取提示模板;基于所述的提示模板构建每一关键点的多变量高斯分布;基于所述的多变量高斯分布和图像特征构建关键点空间位置得分分布图;基于所述的关键点空间位置得分分布图和图像特征得到关键点热力图,基于所述的关键点热力图进行动物姿态估计,获取关键点坐标。与现有技术相比,本发明解决了现有技术中因单一提示模板和多种类动物数据分布不均造成的姿态估计不准确的问题。

    一种基于编码能谱的三维合成摄像方法和装置

    公开(公告)号:CN114081516B

    公开(公告)日:2025-03-25

    申请号:CN202111201677.8

    申请日:2021-10-15

    Applicant: 同济大学

    Inventor: 赵生捷 张桐

    Abstract: 本发明涉及一种基于编码能谱的三维合成摄像方法和装置,包括采用X射线源扫描模体,由探测器探测经过模体衰减的X射线束,从而重建三维数字合成图像,X射线源之前固定有K‑edge编码孔径,该K‑edge编码孔径中的每个像素均由K‑edge材料制成;三维数字合成图像的重建过程包括:构建加入K‑edge编码孔径的测量值计算公式,并进行能谱区间划分,得到离散的测量值计算公式,最终构建X射线源在各个投影视角下获得的综合测量值计算公式,代入初始的三维图像,并与实际获取的测量值对比,进行迭代优化,获取最优的三维图像作为三维断层合成图像重建结果。与现有技术相比,本发明可以有效感知物体的能谱衰减信息,发现在二维图像中隐匿的微小病变,减少不必要的活检。

    一种基于对偶时序图的跨模态视频片段检索方法

    公开(公告)号:CN119597967A

    公开(公告)日:2025-03-11

    申请号:CN202411497553.2

    申请日:2024-10-25

    Applicant: 同济大学

    Inventor: 汪昱 赵生捷

    Abstract: 本发明涉及一种基于对偶时序图的跨模态视频片段检索方法,包括:给定一个任意长的未剪辑视频和一个文本描述,将视频与文本描述输入跨模态视频片段检索模型处理,最终得到视频与文本描述的融合激活图,通过融合激活图得到与文本描述最匹配的视频片段,本发明创新性地提出了语义增强的对偶时序图框架用于文本视频片段检索。该方法通过解耦视觉内容和语义信息,分别构建增强的视觉外观图和语义图,以更精确地捕捉视频片段间的时序依赖关系。这种解耦的方式使得模型能够更好地区分具有相似视觉内容但不同语义的片段。

    一种基于几何正则化的神经辐射场的训练加速方法

    公开(公告)号:CN118229557A

    公开(公告)日:2024-06-21

    申请号:CN202410306008.4

    申请日:2024-03-18

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于几何正则化的神经辐射场的训练加速方法,先通过热身训练建立光度损失函数,经过第一阶段的训练后获得粗糙场景面片模型,再经过第二阶段训练得到带镜面反射和漫反射纹理的精化场景面片模型,便于在移动端进行光栅化渲染。除了经典的光度损失函数外,两阶段训练中均引入了重要的几何正则模块,第一阶段引入了密度正则项,第二阶段引入了几何位置正则化项和几何特征正则化项。这些正则化项帮助网络更好更快地收敛而不需要额外输入的先验信息。与现有技术相比,本发明具有几何结构好、渲染速度快、支持移动端渲染等优点。

    基于深度学习的阿兹海默症检测方法及计算机可读介质

    公开(公告)号:CN113763343B

    公开(公告)日:2024-03-29

    申请号:CN202111008957.7

    申请日:2021-08-31

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于深度学习的阿兹海默症检测方法及计算机可读介质,其中阿兹海默症检测方法包括:步骤1:获取结构性核磁共振成像sMRI图像训练集,进行数据预处理;步骤2:基于熵选择最具信息量的图像切片;步骤3:构建阿兹海默症检测模型,并使用步骤2筛选的图像切片对检测模型进行训练;步骤4:将待检测的结构性核磁共振成像sMRI图像输入检测模型,获得检测结果。与现有技术相比,本发明具有准确度高、鲁棒性好、计算开销小等优点。

    一种采用稀疏体素融合的3D目标检测方法、装置、设备及存储介质

    公开(公告)号:CN117115526A

    公开(公告)日:2023-11-24

    申请号:CN202311043086.1

    申请日:2023-08-18

    Applicant: 同济大学

    Abstract: 本发明涉及一种采用稀疏体素融合的3D目标检测方法、装置、设备及存储介质,其中,该方法包括以下步骤:将采集的点云同时进行立方体素化和柱状体素化,得到前景立方体素和柱状体素;计算柱状体素质心和前景立方体素质心,并提取体素质心作为体素特征;将前景立方体素的特征与柱状体素特征融合,得到第一阶段增强的立方体素特征;选择物体中心的立方体素作为中心体素,根据所述的中心体素得到中心体素特征,将中心体素特征与第一阶段增强的立方体素特征聚合,得到第二阶段增强的立方体素;将第二阶段增强的立方体素送入3D目标检测器中实现目标检测。与现有技术相比,本发明具有起到了有效检测远距离、小目标的检测效果等优点。

    基于多粒度解码器的文本-图像检测方法

    公开(公告)号:CN116912663A

    公开(公告)日:2023-10-20

    申请号:CN202310898188.5

    申请日:2023-07-20

    Applicant: 同济大学

    Abstract: 本案涉及基于多粒度解码器的文本‑图像检测方法,属于图像目标检测领域,用于解决目前检测相关的文本‑图像任务模型无法灵活使用语言描述图像中物体或须假设被描述物体有且仅有一个的问题。本案根据任务类型配置不同粒度的解码器构成多粒度解码器,对以文字描述和/或包围盒形式对图像中目标对象进行描述的文本图像任务,获取任务中图像和文本的融合特征序列;当把融合特征序列作为多粒度解码器的输入时,多粒度解码器输出文本‑图像任务检测结果。本案将各种与检测定位相关的文本‑图像任务统一为基于文本描述物体检测任务,有效统一了各种任务形式;多粒度解码器具有可扩展性,训练好的多粒度解码器能够实现对不同文本图像任务的推理。

    一种基于多不相连模式学习的行人轨迹预测方法

    公开(公告)号:CN116823889A

    公开(公告)日:2023-09-29

    申请号:CN202310789300.1

    申请日:2023-06-30

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于多不相连模式学习的行人轨迹预测方法,基于社交不相连模式生成对抗网络模型生成预测轨迹,使用编码器提取视觉特征与观测行人轨迹特征,基于注意力模块获取物理场景和社会注意力特征;采用社会注意力建立基于注意力标注的结构化图序列,并对结构化图序列通过时空编码器编码提取物理背景和行人移动的瞬态变化;将物理场景注意力、社会注意力以及时空编码器输出特征拼接输入多生成器架构,输出预测行人的未来轨迹;利用生成器选择器对多生成器进行先验学习,在先验学习的过程中采用谱轨迹聚类模块更新生成器数量上限。本发明相较现有技术能够捕捉时空信息的瞬态变化、减少模型冗余,并能灵活适应于多个预测场景。

    一种基于Shapley值的联邦学习方法
    10.
    发明公开

    公开(公告)号:CN116205311A

    公开(公告)日:2023-06-02

    申请号:CN202310124072.6

    申请日:2023-02-16

    Applicant: 同济大学

    Inventor: 朱亚萍 赵生捷

    Abstract: 本发明提供一种基于Shapley值的联邦学习方法。该方法考虑联邦学习中不同客户端数据分布的差异,在获取全局模型参数时,根据客户端的本地训练模型对整体训练目标的贡献对其参数进行加权聚合。在联邦学习的每轮迭代训练后,根据每个客户端的本地模型参数之间的余弦相似度构建一个加权图,并计算图中每个客户端顶点的Shapley值。服务器基于客户端的Shapley值为每个客户端的模型参数设置相应的权重系数,并根据该系数对客户端的模型参数进行加权聚合,得到下一轮训练的全局模型参数,直至达到训练目标后结束。

Patent Agency Ranking