一种基于文本驱动的数字人动作生成方法

    公开(公告)号:CN119579743B

    公开(公告)日:2025-04-15

    申请号:CN202510137065.9

    申请日:2025-02-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的数字人动作生成方法,在构建训练数据集时将人体各个身体部位进行解耦,针对每个身体部位生成对应的文本描述单元,通过随机选择文本描述单元构建描述同一动作的不同文本,缓解以往数据集存在的局部动作组合偏置的影响,帮助模型更好地将文本和其对应的局部身体动作进行关联;人体动作向量量化自编码器中的动作编码器和动作解码器均采用了图卷积网络的结构,更加有效地表征人体骨架连接关系。人体运动数据实际上应该为拓扑图结构,而非网格数据,因此图卷积神经网络相较于卷积神经网络,更有效地利用人体拓扑结构,提取关节之间地内在联系。模态转换模型受益于在训练时采用了局部语义强化的损失函数。

    一种基于大语言模型的可变形物体双臂操作方法

    公开(公告)号:CN119734280A

    公开(公告)日:2025-04-01

    申请号:CN202510149880.7

    申请日:2025-02-11

    Applicant: 浙江大学

    Inventor: 杜浩哲 王越 熊蓉

    Abstract: 本发明公开了一种基于大语言模型的可变形物体双臂操作方法,本发明通过将用户的语言目标指令作为输入。与视觉目标信息相比,语言目标指令能够包含更为丰富的语义信息,提供更全面的上下文支持,且能够支持灵活、多样化的任务表达。此外,语言指令的输入方式更贴近人类自然交互习惯,显著降低操作门槛,提升人机协作的紧密度与效率,还提出了一种创新的三层分层规划方法,涵盖子目标分解、折叠对称轴规划及双臂抓取与放置动作规划,能够有效解决复杂可变形物体的操作任务,实现从高层次任务分解到具体操作动作的层次化规划。同时,可以仅基于最终目标来规划多步骤操作动作,在复杂任务场景下展现出良好的性能和适应性。

    基于视觉语言模型和历史数据学习的可变形物体形状控制方法

    公开(公告)号:CN119820579A

    公开(公告)日:2025-04-15

    申请号:CN202510293736.0

    申请日:2025-03-13

    Applicant: 浙江大学

    Inventor: 杜浩哲 王越 熊蓉

    Abstract: 本发明公开了一种基于视觉语言模型和历史数据学习的可变形物体形状控制方法,既结合了视觉目标中微观像素层面的指导,又利用了语言目标中的信息进行宏观语义层次的任务规划和逻辑推理,最后利用视觉语言模型将两种模态的目标信息进行融合,使得视觉目标和语言目标相互促进、相互协同,保证了可变形物体形状控制任务的精确规划,利用黑箱优化算法进行在线参数估计,实现对物体形变状态的实时追踪和更新,参数化多边形模型这一几何表征将高维视觉观测数据压缩至低维参数空间,显著降低了可变形物体状态观测的维度,只保留与任务相关的关键状态信息。

    基于深度相位相关的异构三维观测配准方法、介质及设备

    公开(公告)号:CN115619835B

    公开(公告)日:2023-09-01

    申请号:CN202211110592.3

    申请日:2022-09-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度相位相关的异构三维观测配准方法、介质及设备。本发明将相位相关算法优化为全局收敛的可微分相位相关求解器,并将其与简单的特征提取网络相结合,从而构建了一个整体框架可微分且能够端到端训练的异构三维观测配准方法。本发明针对三维的物体、场景测量以及医疗图像数据均可以实现准确的三维观测配准,而且其配准表现高于现有基线模型。

    一种基于文本驱动的数字人动作生成方法

    公开(公告)号:CN119579743A

    公开(公告)日:2025-03-07

    申请号:CN202510137065.9

    申请日:2025-02-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的数字人动作生成方法,在构建训练数据集时将人体各个身体部位进行解耦,针对每个身体部位生成对应的文本描述单元,通过随机选择文本描述单元构建描述同一动作的不同文本,缓解以往数据集存在的局部动作组合偏置的影响,帮助模型更好地将文本和其对应的局部身体动作进行关联;人体动作向量量化自编码器中的动作编码器和动作解码器均采用了图卷积网络的结构,更加有效地表征人体骨架连接关系。人体运动数据实际上应该为拓扑图结构,而非网格数据,因此图卷积神经网络相较于卷积神经网络,更有效地利用人体拓扑结构,提取关节之间地内在联系。模态转换模型受益于在训练时采用了局部语义强化的损失函数。

    基于深度相位相关的异构三维观测配准方法、介质及设备

    公开(公告)号:CN115619835A

    公开(公告)日:2023-01-17

    申请号:CN202211110592.3

    申请日:2022-09-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度相位相关的异构三维观测配准方法、介质及设备。本发明将相位相关算法优化为全局收敛的可微分相位相关求解器,并将其与简单的特征提取网络相结合,从而构建了一个整体框架可微分且能够端到端训练的异构三维观测配准方法。本发明针对三维的物体、场景测量以及医疗图像数据均可以实现准确的三维观测配准,而且其配准表现高于现有基线模型。

Patent Agency Ranking