-
公开(公告)号:CN118170937A
公开(公告)日:2024-06-11
申请号:CN202410335446.3
申请日:2024-03-22
Applicant: 合肥工业大学
IPC: G06F16/583 , G06F16/532 , G06F40/284 , G06F40/126 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/084
Abstract: 本发明涉及计算机视觉技术领域,公开了一种基于检索增强的精细化类别图像生成方法,包括:收集多种类别的图像;使用预训练的CLIP模型提取图像的特征,将得到的图像特征向量存储到向量数据库;对查询文本进行分词和编码,得到文本序列;通过预训练的CLIP模型对文本序列进行特征提取,得到查询文本的文本特征向量;对文本特征向量和图像特征向量进行相似度计算,根据向量数据库存储的路径信息,得到查询文本对应的图像;将提示词和图像输入到Stable Diffusion模型,得到最终的特定类别的图像。本发明利用检索获取的相关信息,图像生成模型可以更准确地理解所需生成图像的特定类别,并生成更符合要求的图像内容。
-
公开(公告)号:CN118051633A
公开(公告)日:2024-05-17
申请号:CN202410148559.2
申请日:2024-02-01
Applicant: 合肥工业大学 , 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
Abstract: 本发明涉及跨模态检索技术领域,公开了一种基于长短映射的跨模态哈希检索方法,包括以下步骤:建立多模态数据集,多模态数据集中包括多个由图像以及对应的文本描述组成的图像文本描述对;构建长短映射方法;构建检索模型;哈希检索;本发明通过深度学习提取多维度特征,依据多维度特征之间的相关性差异实现不同维度特征之间的映射以增强低维特征的表现能力并提升检索准确率。
-
公开(公告)号:CN118038139A
公开(公告)日:2024-05-14
申请号:CN202410129619.6
申请日:2024-01-30
Applicant: 合肥工业大学 , 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
Abstract: 本发明涉及计算机视觉技术领域,公开了一种基于大模型微调的多模态小样本图像分类方法,包括:图像文本对的预处理;多模态特征的提取;构建基于CLIP大模型微调的多模态小样本分类模型;类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到图像特征,利用余弦分类器,对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所述的类别,即为测试图像的预测类别。本发明在视觉‑语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。
-
公开(公告)号:CN118035559A
公开(公告)日:2024-05-14
申请号:CN202410344265.7
申请日:2024-03-25
Applicant: 合肥工业大学
IPC: G06F16/9535 , G06N3/0464 , G06N3/048 , G06N3/084 , G06F18/24 , G06F17/16 , G06F17/18
Abstract: 本发明公开了一种基于信息瓶颈的去偏推荐方法,包括:1.构造原始数据:用户对产品的交互矩阵,用户有偏属性矩阵;2.使用有偏属性编码器学习用户‑产品交互数据中的用户有偏表征;3.基于深度图神经网络学习用户和产品表征矩阵;4.基于信息瓶颈理论最小化用户表征与有偏表征,用户子图表征与有偏表征之间的互信息,计算损失函数;5.基于用户和产品表征矩阵重构交互矩阵,计算损失函数;6.联合步骤4‑步骤5的损失函数进行信息瓶颈学习,更新模型参数至模型收敛。本发明基于信息瓶颈的思想,在满足推荐任务的需求下学习无偏的用户表征,从而能有效减少推荐偏差,保证推荐的准确性。
-
公开(公告)号:CN117874205A
公开(公告)日:2024-04-12
申请号:CN202410063901.9
申请日:2024-01-16
Applicant: 合肥工业大学
IPC: G06F16/332 , G06F16/35 , G16H20/70 , G16H80/00 , G06N3/045 , G06N3/0442
Abstract: 本发明提供一种基于多轮对话的数字化病人对话生成方法、系统、存储介质和电子设备,涉及对话生成技术领域。本发明包括:采集并向量化病人的对话历史,分别获取病人与其对话者的历史语句集合并作为GRU的输入,对应获取第一和第二隐藏状态;结合背景信息的编码结果,采用多头注意力机制预测下一时刻病人心理情感的分类结果,并据此构建情感分类损失;根据预测的下一时刻病人心理情感的分类结果,通过Tranformer的掩码多头自注意力机制,生成下一时刻的病人回复,并据此构建病人回复损失;最终生成待分析病人的下一时刻的回复。通过引入病人的背景信息,有利于筛选出更符合病人的词汇生成完整的回复,使得模型能够更加精准地学习病人的对话方式。
-
公开(公告)号:CN117786219A
公开(公告)日:2024-03-29
申请号:CN202311830302.7
申请日:2023-12-28
Applicant: 合肥工业大学
IPC: G06F16/9535 , G06N3/126 , G06N3/092
Abstract: 本发明公开了一种改进遗传算法的多目标电影推荐方法,包括:1,构建电影准确率基因库、电影多样性基因库和电影公平性基因库,根据构建的基因库,初始化原始父种群;2,在多父类交叉环节,设置三个不同的交叉算子,结合强化学习的q‑learning方法自适应的选择交叉算子,奖励值中的超参ω1和ω2用于控制优化的方向;3,在基因突变环节,设置多个不同程度的突变算子,结合强化学习的q‑learning方法自适应的选择突变算子;4,对种群进行非支配排序,同时计算种群中各个个体的拥挤度,按照上述过程进行循环迭代处理,在达到迭代停止条件后,输出最终电影推荐结果。本发明能够提高电影推荐结果的准确性、多样性和公平性。
-
公开(公告)号:CN117746164A
公开(公告)日:2024-03-22
申请号:CN202410100320.8
申请日:2024-01-24
Applicant: 合肥工业大学
IPC: G06V10/764 , G06T5/50 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于渐进性视野锥的注视目标估计方法,其步骤包括:1、先从目标人物的头部图片估计视线方向;2、利用深度图像构建以目标人物为中心的渐进性关系;3、根据视线方向和渐进性关系生成高质量的视野锥图像;4、结合视野锥图像、场景RGB图像和场景深度图提取潜在的视线目标的显著性特征;5、估计分块级的注视分布并与显著性特征结合,以丰富显著性特征映射到注视位置热图中的特征表示,6、利用优化的显著性特征来判断注视目标是否在图像内,并生成注视热图。本发明能快速准确地定位出图片中的目标人物的注视目标位置,基于渐进性关系生成的视野锥可以有效的消除与注视无关的背景,从而提高了注视目标估计的准确度。
-
公开(公告)号:CN114707523B
公开(公告)日:2024-03-08
申请号:CN202210418758.1
申请日:2022-04-20
Applicant: 合肥工业大学
IPC: G06F40/58 , G06F40/211 , G06F40/242 , G06F40/289 , G06N3/0455 , G06N3/048 , G06N3/084 , G06V20/62
-
公开(公告)号:CN115035170B
公开(公告)日:2024-03-05
申请号:CN202210535815.4
申请日:2022-05-17
Applicant: 合肥工业大学
IPC: G06T5/77 , G06T7/41 , G06T5/60 , G06N3/0455 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种基于全局纹理与结构的图像修复方法,涉及图像处理领域,包括以下步骤:输入待修复图像,获取待修复图像的纹理参考集;利用已知区域和已经粗糙填充过的遮挡块作为条件,对后续的遮挡块进行填充,新的遮挡块粗糙填充后,放到条件里面,继续帮助后续的填充,具体包括:从纹理参考集中选取参考向量,修补所述粗糙填充块,并计算纹理参考集与粗糙填充块之间的注意力分数;利用桥接注意力模块与注意力分数重构粗糙填充块,经过多层构建后得到语料集合,从语料集合中选取关联最强的候选块,得到最终修复输出。本发明的方法得到的修复输出在语义上更加连贯。
-
公开(公告)号:CN111949762B
公开(公告)日:2023-12-29
申请号:CN202010659317.1
申请日:2020-07-09
Applicant: 合肥工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/289 , G06F18/24 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 本发明提供一种基于上下文情感对话的方法和系统、存储介质,涉及情感对话技术领域。本发明实施例首先获取对话上下文数据集,提取其中的主题类别和情感类别,得到主题关键词概率和情感关键词概率,随之预测回复中的主题关键词和情感关键词,根据预测的主题关键词和情感关键词生成初步的回复,接着得到所述初步的回复的权重值,根据初步的回复和权重,得到最终的回复。由此,本发明实施例充分利用了对话上下文,让机器生成的回复更加贴近主题,也更好地判断上下文的情感变化,以及把握对话主题的延伸。
-
-
-
-
-
-
-
-
-