Patent search ap:("北京达佳互联信息技术有限公司") AND inv:"张迪" Page 1

1.

发明公开
图像生成模型的训练方法、装置、电子设备及存储介质审中-公开

公开(公告)号：CN119919755A

公开(公告)日：2025-05-02

申请号：CN202411997082.1

申请日：2024-12-31

Applicant: 北京达佳互联信息技术有限公司

Inventor： 达铖 , 张迪

IPC: G06V10/774 , G06V10/30 , G06V10/82 , G06N3/08 , G06N3/0985 , G06N3/0475

Abstract: 本公开关于图像生成模型的训练方法、装置、电子设备及存储介质，方法包括：获取样本图像、包括加噪网络和去噪网络的图像生成模型和待训练一致性模型；基于加噪网络和当前采样时间步对样本图像进行加噪得到第一样本噪声图像；基于去噪网络和预设数量个单位时间间隔对第一样本噪声图像进行去噪得到第二样本噪声图像；将第一样本噪声图像和第二样本噪声图像输入待训练一致性模型，得到第一样本预测图像和第二样本预测图像；根据第一样本预测图像、第二样本预测图像和与当前采样时间步负相关的动态权重所确定的目标损失数据，对待训练一致性模型进行训练，得到目标图像生成模型。本公开可以得到能直接生成图像的模型并可以提升模型的图像生成质量。

2.

发明公开
图像生成模型的训练方法、图像生成方法及装置审中-实审

公开(公告)号：CN119648559A

公开(公告)日：2025-03-18

申请号：CN202411698532.7

申请日：2024-11-25

Applicant: 北京达佳互联信息技术有限公司

Inventor： 朱雄威 , 张迪

IPC: G06T5/70 , G06N3/08 , G06N3/0475 , G06F40/30 , G06N3/0455

Abstract: 本公开关于一种图像生成模型的训练方法、图像生成方法及装置，该方法包括：获取第一样本加噪图像和第一样本描述文本，将第一样本描述文本输入至预设文本编码器中进行文本编码，得到第一全局语义特征和第一字符语义特征；基于第一全局语义特征和样本时间步生成第一样本融合条件特征；将第一字符语义特征、第一样本融合条件特征和第一样本加噪图像输入至预设噪声预测器进行噪声预测处理，得到第一预测噪声；基于去噪网络对第一样本加噪图像进行去噪处理，得到预测图像；根据第一预测噪声和样本噪声标签之间的差异以及预测图像与第一样本图像标签的差异，对预设图像生成模型进行训练，得到目标图像生成模型，提高了图像的语义跟随能力和准确性。

3.

发明公开
图像生成模型训练方法、图像生成方法、装置和电子设备审中-公开

公开(公告)号：CN119919512A

公开(公告)日：2025-05-02

申请号：CN202411732055.1

申请日：2024-11-28

Applicant: 北京达佳互联信息技术有限公司

Inventor： 邓锦灿 , 李岩 , 成乐乐 , 张迪

IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06T5/50 , G06N3/08 , G06N3/0464 , G06N3/0455

Abstract: 本公开关于一种图像生成模型训练方法、图像生成方法、装置、电子设备、存储介质和计算机程序产品。所述方法包括：获取第一分辨率的第一样本图像，以及第一样本图像对应的第一文本描述信息和第一样本加噪图像；根据第一样本加噪图像和第一文本描述信息，对待训练的图像生成模型进行迭代训练，得到初始图像生成模型；获取第二分辨率的第二样本图像，以及第二样本图像对应的第二文本描述信息和第二样本加噪图像；第二分辨率高于第一分辨率；第二图像加噪模型的总加噪步数大于第一图像加噪模型的总加噪步数；根据第二样本加噪图像和第二文本描述信息，对初始图像生成模型进行迭代训练，得到目标图像生成模型。采用本方法，能够提高图像生成准确率。

4.

发明公开
一种对象特征确定方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119202372A

公开(公告)日：2024-12-27

申请号：CN202411110975.X

申请日：2024-08-13

Applicant: 北京达佳互联信息技术有限公司

Inventor： 梁健 , 钟睿 , 高晓旸 , 万峻辰 , 李晗 , 陈虹钢 , 江鹏 , 李思则 , 张迪 , 于越

IPC: G06F16/9535 , G06F16/9537 , G06N5/04 , G06N5/022 , G06N3/08 , G06N3/0455

Abstract: 本公开关于一种对象特征确定方法、装置、电子设备及存储介质，该方法将样本推荐对象的对象描述信息输入至大语言模型，通过大语言模型基于第一预设思维链提示文本进行目标交互行为的转化分析得到转化理由，该第一预设思维链提示文本用于提示针对样本推荐对象产生目标交互行为的推理过程，转化理由包括该推理过程中的至少一个维度的推理结果，进而基于该转化理由对样本推荐对象进行特征表示得到其第一对象特征，并基于样本交互对象的样本推荐对象序列中各样本推荐对象的第一对象特征确定该样本交互对象的第二对象特征。本公开提高了面向具体预估任务的对象表征的准确性并缩短了耗时，提高了面向具体预估任务的推荐概率预估模型的训练效率和准确性。

5.

发明授权
基于无标注网络视频数据的多模态预训练方法及系统有权

公开(公告)号：CN118711168B

公开(公告)日：2024-11-22

申请号：CN202411196066.2

申请日：2024-08-29

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学

Inventor： 吴建龙 , 王霄 , 聂礼强 , 王鹏伟 , 林梓佳 , 张富峥 , 张迪 , 甘甜

IPC: G06V20/62 , G06V20/40 , G06V30/19

Abstract: 本发明属于视频数据处理技术领域，为解决数据数量、多样性和质量三者无法同时兼顾的问题，提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中，基于无标注网络视频数据的多模态预训练方法包括：利用大语言模型和图像‑文本模型对视频数据集进行初步细化，生成初步的训练数据集，再引入噪音控制损失函数下，初步训练视频‑语言大模型，作为前一阶段训练得到的视频‑语言大模型；在前一阶段训练得到的视频‑语言大模型未训练完成时，利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化，再引入同样噪音控制损失函数下，迭代训练视频‑语言大模型，直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。

6.

发明公开
基于无标注网络视频数据的多模态预训练方法及系统有权

公开(公告)号：CN118711168A

公开(公告)日：2024-09-27

申请号：CN202411196066.2

申请日：2024-08-29

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学

Inventor： 吴建龙 , 王霄 , 聂礼强 , 王鹏伟 , 林梓佳 , 张富峥 , 张迪 , 甘甜

IPC: G06V20/62 , G06V20/40 , G06V30/19

Abstract: 本发明属于视频数据处理技术领域，为解决数据数量、多样性和质量三者无法同时兼顾的问题，提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中，基于无标注网络视频数据的多模态预训练方法包括：利用大语言模型和图像‑文本模型对视频数据集进行初步细化，生成初步的训练数据集，再引入噪音控制损失函数下，初步训练视频‑语言大模型，作为前一阶段训练得到的视频‑语言大模型；在前一阶段训练得到的视频‑语言大模型未训练完成时，利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化，再引入同样噪音控制损失函数下，迭代训练视频‑语言大模型，直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。

7.

发明公开
视频生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119653197A

公开(公告)日：2025-03-18

申请号：CN202411751163.3

申请日：2024-11-29

Applicant: 北京达佳互联信息技术有限公司

Inventor： 曾艳兵 , 李岩 , 张迪

IPC: H04N21/81 , H04N21/854 , H04N21/44

Abstract: 本公开提供了一种视频生成方法、装置、电子设备及存储介质，属于计算机技术领域。在该方法中将从原始图像中提取的语义特征、隐含特征、掩蔽特征等多种图像特征和相机特征作为第一视频生成模型的输入，使得第一视频生成模型不仅能够在动态视频中展示原始图像中的目标对象，还使得第一视频生成模型能够学习到相机特征，从而使动态视频的相机轨迹和相机视角都更加符合展示逻辑。相较于传统的直接将语义特征输入到第一视频生成模型中的方式，本方式通过引入多种图像特征和相机特征，使得第一视频生成模型以目标对象为主体，生成细节更加丰富且更符合展示逻辑的动态视频，提高了视频质量和可用率。

8.

发明公开
图像处理方法、装置、电子设备、可读存储介质及程序产品审中-实审

公开(公告)号：CN119399299A

公开(公告)日：2025-02-07

申请号：CN202411396916.3

申请日：2024-10-08

Applicant: 北京达佳互联信息技术有限公司

Inventor： 陈敏捷 , 李岩 , 张迪

IPC: G06T11/00 , G06T7/194 , G06N3/0464 , G06N3/0475 , G06T9/00 , G06V10/40

Abstract: 本公开关于一种图像处理方法、装置、电子设备、可读存储介质及程序产品，包括：基于目标商品的第一商品图像，生成用于控制目标商品的商品背景的文本提示信息；获取目标商品的掩码图像，将所述掩码图像、所述目标商品的第二商品图像和所述文本提示信息输入图像生成模型，得到以所述目标商品为前景，以基于所述文本提示信息生成的图像为背景的目标图像。该方法以文本提示信息和目标商品的掩码图像为条件，通过图像生成模型实现背景的生成，可实现对目标商品的背景的自动化更换，提高商品的展示效果。并且，引入第二商品图像作为显式图像语义条件，能够实现背景区域和商品主体之间的和谐过渡，解决现有技术中背景与商品边界明显的问题。

9.

发明公开
信息展示方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119232694A

公开(公告)日：2024-12-31

申请号：CN202411498449.5

申请日：2024-10-24

Applicant: 北京达佳互联信息技术有限公司

Inventor： 王秋霖 , 黄慧娟 , 王鑫涛 , 黄润悟 , 夏孟涵 , 万鹏飞 , 张迪 , 于越 , 李杨 , 王煦尧

IPC: H04L51/046 , G06F3/0481 , H04L51/10 , H04L51/52

Abstract: 本公开关于一种信息展示方法、装置、电子设备及存储介质，该方法可包括：展示第一界面；所述第一界面包括第一图像输入控件；响应于基于所述第一图像输入控件对基准图像的输入操作，展示第二界面；所述第二界面包括第二图像输入控件，所述基准图像中包括第一对象；响应于基于所述第二图像输入控件对附加图像的输入操作，在所述附加图像与所述基准图像满足预设图像关联条件的情况下，展示目标提示信息；满足所述预设图像关联条件的附加图像为包含所述第一对象且和所述基准图像相似的图像；所述目标提示信息表征基于所述基准图像以及所述附加图像成功生成与所述第一对象对应的视频生成模型。本公开能够提高视频生成的多样性以及灵活性。

10.

发明公开
图像生成模型训练方法以及图像生成方法审中-公开

公开(公告)号：CN119919281A

公开(公告)日：2025-05-02

申请号：CN202411997071.3

申请日：2024-12-31

Applicant: 北京达佳互联信息技术有限公司

Inventor： 王柳蕙 , 关玉烁 , 李岩 , 高婷婷 , 张迪

IPC: G06T3/067 , G06T17/00 , G06V10/774 , G06N3/0475 , G06V10/82 , G06N3/0455 , G06V10/46 , G06V10/40 , G06V10/80 , G06T5/70

Abstract: 本公开关于图像生成模型训练方法以及图像生成方法，该训练方法包括获取控制模型，以及预训练的图像生成器和文本编码器；获取样本文本和样本参考图像，样本文本为用于描述待生成的图像中的人像的文本内容，样本参考图像指示待生成的图像中的全身人像的形态；将样本文本输入文本编码器进行文本编码，得到样本文本特征；基于控制模型对样本参考图像进行特征处理，得到样本图像引导特征；将样本文本特征和样本图像引导特征输入图像生成器进行图像生成，得到预测图像，预测图像的全身人像包括人脸；基于预测图像调整控制模型参数；对调参后的控制模型、文本编码器和图像生成器进行组合，得到图像生成模型。本公开提供带有人脸的全身人像的生成能力。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification