一种基于AIGC的影视角色及场景图生成方法及系统

    公开(公告)号:CN119963679A

    公开(公告)日:2025-05-09

    申请号:CN202510101392.9

    申请日:2025-01-22

    Applicant: 厦门大学

    Abstract: 一种基于AIGC的影视角色及场景图生成方法及系统,涉及人工智能。获取用户输入的剧本文字内容,提取角色描述及场景描述;通过大语言模型将角色描述及场景描述转换成标准格式的Prompt并输入Stable Diffusion,生成基准角色图或基准场景图。对于角色一致性:根据IP‑Adapter身份保持模块,输入基准参考图和文字描述生成同一角色的不同状态。对于场景一致性:从基准场景图中提取边缘轮廓信息,将轮廓信息、文字描述作为controlnet的输入,生成不同天气、光照的状态。提升AIGC生成的角色一致性和场景一致性,高效生成同一角色同一场景下不同状态,为生成角色小传、勘景选景提供参考。

    一种基于大语言模型的AI剧本生成、元素拆解的方法及系统

    公开(公告)号:CN119962496A

    公开(公告)日:2025-05-09

    申请号:CN202510101736.6

    申请日:2025-01-22

    Applicant: 厦门大学

    Abstract: 一种基于大语言模型的AI剧本生成、元素拆解的方法及系统,涉及计算机技术领域。旨在通过人工智能技术辅助剧本创作与拆解,提高电影制作效率。在剧本生成方面,用户通过输入故事简要概述及故事类型、基调、结构等关键信息,结合大语言模型提供的灵感与建议,快速搭建故事骨干,并逐步完善为成篇故事。用户可灵活修订,实现人机高效协同。在剧本拆解方面,系统利用大语言模型及预置提示词,自动拆解剧本中的人物、场景、道具及服装等元素,形成详尽描述,并去除非法输入与冗余信息,最终输出标准化Excel表格文件,便于剧组高效管理与利用。融合人类创作技巧与AI智能辅助,为电影制作带来降本增效的新途径,推动影视行业的智能化发展。

    一种基于Agent协作的AIGC长视频稳定生成方法及系统

    公开(公告)号:CN119893206A

    公开(公告)日:2025-04-25

    申请号:CN202510100849.4

    申请日:2025-01-22

    Applicant: 厦门大学

    Abstract: 一种基于Agent协作的AIGC长视频稳定生成方法及系统,涉及计算机技术领域。包括如下步骤:获取用户输入的剧本文字内容;采用预置的prompt预训练“剧组工作人员”Agent;将用户输入的剧本文字内容转换成分镜脚本,提取对话;从用户输入的剧本提取角色和场景的描述;从角色和场景的描述转换成Stable Diffusion的标准prompt;生成角色和场景的设定图;根据角色描述从音色库中选择符合角色设定的音色;音色克隆预训练模型从音色和对话文字生成对话音频;根据对话音频和角色图生成对话的视频;根据分镜脚本和对话视频剪辑成片。比起现有方法极大地提升AIGC长视频生成的角色一致性和视频质量稳定性。

    一种基于深度神经网络的机器人材质识别方法及系统

    公开(公告)号:CN114519796B

    公开(公告)日:2025-03-07

    申请号:CN202210101620.9

    申请日:2022-01-27

    Applicant: 厦门大学

    Abstract: 本发明提供了机器人触觉感知技术领域的一种基于深度神经网络的机器人材质识别方法及系统,方法包括如下步骤:步骤S10、机器人通过安装于机械臂末端的电子皮肤,在不同工况下分批次采集大量的材质图像;步骤S20、基于结构相似性计算各批次的所述材质图像之间的相似度,基于各所述相似度构建数据集;步骤S30、基于深度神经网络创建一材质识别模型,利用所述数据集对材质识别模型进行训练;步骤S40、机器人利用训练后的所述材质识别模型,对新的工况下电子皮肤采集的图像进行实时的材质识别,并实时输出识别结果。本发明的优点在于:极大的提升了机器人材质识别的准确性、稳定性以及泛化能力。

    一种应用于社交机器人的微表情识别方法

    公开(公告)号:CN114708627B

    公开(公告)日:2024-05-31

    申请号:CN202210186949.X

    申请日:2022-02-28

    Applicant: 厦门大学

    Abstract: 本发明公开一种应用于社交机器人的人脸微表情识别方法。步骤一:社交机器人从摄像头获取视觉输入。步骤二:社交机器人的中央处理单元对视觉输入进行人脸定位。步骤三:中央处理单元提取四种光流信息的输入组。步骤四:将输入组传入训练好的分块卷积网络中,得到分类后的微表情状态。步骤五:社交机器人的交互层根据用户不同的微表情状态来进行相应的响应。本发明设计了一个全新的基于深度特征增强的分块卷积网络,提高了微表情识别的泛化性和鲁棒性,并应用于社交机器人,使得社交机器人可以实时地根据用户的微表情状态实施不同的响应方式。

    适用于影视后期制作的智能人脸替换技术

    公开(公告)号:CN117315089A

    公开(公告)日:2023-12-29

    申请号:CN202311251977.6

    申请日:2023-09-26

    Applicant: 厦门大学

    Abstract: 适用于影视后期制作的智能人脸替换技术,涉及视频处理。采用多任务学习的框架,将目标检测、人脸识别、人脸重建、人脸对齐、人脸融合等步骤统一为一个端到端的网络模型,实现了一体化的视频生成流程;采用注意力机制,增强了网络模型对输入视频中的人物区域和人脸特征的关注和提取能力,提高了生成结果的质量和稳定性;采用条件生成对抗网络,利用目标人物的照片或视频作为条件输入,生成与目标人物相似的二维人脸图像,实现多样性和可编辑性的视频生成;采用循环神经网络,利用前后帧之间的时序信息,保持生成结果的动态细节和时间连贯性,减少闪烁、抖动、失真等现象。相比现有技术具有更高效、更稳定、更灵活、更可控的优势。

    一种基于语音合成的乐谱智能视唱方法和系统

    公开(公告)号:CN111816157B

    公开(公告)日:2023-01-31

    申请号:CN202010590726.0

    申请日:2020-06-24

    Applicant: 厦门大学

    Abstract: 本发明提供了一种基于语音合成的乐谱智能视唱方法和系统,所述方法包括:步骤一、数据准备,输入并解析abc乐谱,得出具体一个abc乐谱中每个音符的音高以及时长信息;步骤二、训练参数,制作训练数据时生成了长度5个以内的音符,即在处理一个完整的abc乐谱时,将其所有音符划分成5个音符一组;步骤三、合成音频拼接,具体包括乐谱分段识别、片段拼接、波形对齐与空白段填充三个子步骤;步骤四、对合成的音频进行可视化展示。本发明解决了训练过程计算量大、直接拼接时拼接痕迹会比较明显、拼接杂音等技术问题,生成的音频和原数据的效果对比很难分辨出差别。

    一种应用于社交机器人的动态延长编码微表情识别方法

    公开(公告)号:CN114973362A

    公开(公告)日:2022-08-30

    申请号:CN202210549594.6

    申请日:2022-05-20

    Applicant: 厦门大学

    Abstract: 本发明公开了一种应用于社交机器人的动态延长编码微表情识别方法,属于微表情领域;所述方法包括如下步骤:S1、对数据集中的数据进行增强扩充数据量并预处理;S2、搭建表情识别模型并利用S1中的数据集进行训练;S3、将步骤S2中训练后的表情识别模型进行优化调整;S4、输出最终的表情识别模型;本发明方法构建表情识别模型为基于一个标准卷积神经网络的实时CNN,有四个residual模块,每一个卷积均有一个BatchNormalization和Relu处理,末尾的卷积层也添加了全局平均池化层和softmax层;此架构包含大约六万个参数,是基本模型的十分之一;经过测试,系统在自闭症患儿数据集上的准确率达到70%,改进后的模型相较于之前获得了更高的识别精度。

    一种基于机器人的触觉数据感知分析方法

    公开(公告)号:CN113792792A

    公开(公告)日:2021-12-14

    申请号:CN202111078660.8

    申请日:2021-09-15

    Applicant: 厦门大学

    Abstract: 本发明公开一种基于机器人的触觉数据感知分析方法,所述机器人为接触端设有传感器的机械臂,所述基于机器人触觉的鲁棒感知分析方法包括如下步骤:构建材质样本数据库;选取预设的具有注意力机制模块的网络模型;将样本数据集输入网络模型进行训练并验证;将机械臂的传感器触觉数据输入训练完成的网络模型输出分析结果。提出了一种机械臂结合阵列式触觉传感器快速收集触觉数据的方案,通过机械臂快速按压收集触觉数据,每一次数据采集使用不同位姿下的机械臂,采用不同按压力度进行收集,能有效包括触摸时的不同接触状态。这种采样模式更加适应机器人操作的实际需求。

Patent Agency Ranking