-
公开(公告)号:CN118013070B
公开(公告)日:2024-08-23
申请号:CN202410425002.9
申请日:2024-04-10
Applicant: 吉林大学
IPC: G06F16/583 , G06F16/332 , G06F16/33 , G06F16/53 , G06N3/0895
Abstract: 本发明涉及人工智能的视觉问答技术领域,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法,包括:获取目标问题,将目标问题输入预设的视觉问答模型中,输出预测的答案,其中视觉问答模型包括:提示样本生成模块,用于构建提示模板,并基于提示模板结合图像‑问题对的信息生成提示样本;嵌入提取模块,用于基于提示样本指导图像‑问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;嵌入融合模块,用于对文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;答案预测模块,用于基于融合嵌入预测视觉问答任务的答案。本发明能够准确进行视觉问答。
-
公开(公告)号:CN118070106B
公开(公告)日:2024-08-23
申请号:CN202410465732.1
申请日:2024-04-18
Applicant: 吉林大学
Abstract: 本发明提出了基于信号通道缩放和频域特征补全的人类活动识别方法,属于人类活动识别技术领域,包括:对人体活动中的传感器数据进行预处理,获取频域信息和时域信息;对所述频域信息和时域信息进行特征提取,并对提取的特征进行压缩以及特征融合,获取时频融合特征;利用预设分类器对所述时频融合特征进行分类识别,获取人体活动识别结果。本发明有效地校准了多通道信号的特征表示,更好地缓解了人类识别活动中数据的异质性问题,实现人类识别活动的准确识别。
-
公开(公告)号:CN118070106A
公开(公告)日:2024-05-24
申请号:CN202410465732.1
申请日:2024-04-18
Applicant: 吉林大学
Abstract: 本发明提出了基于信号通道缩放和频域特征补全的人类活动识别方法,属于人类活动识别技术领域,包括:对人体活动中的传感器数据进行预处理,获取频域信息和时域信息;对所述频域信息和时域信息进行特征提取,并对提取的特征进行压缩以及特征融合,获取时频融合特征;利用预设分类器对所述时频融合特征进行分类识别,获取人体活动识别结果。本发明有效地校准了多通道信号的特征表示,更好地缓解了人类识别活动中数据的异质性问题,实现人类识别活动的准确识别。
-
公开(公告)号:CN118013070A
公开(公告)日:2024-05-10
申请号:CN202410425002.9
申请日:2024-04-10
Applicant: 吉林大学
IPC: G06F16/583 , G06F16/332 , G06F16/33 , G06F16/53 , G06N3/0895
Abstract: 本发明涉及人工智能的视觉问答技术领域,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法,包括:获取目标问题,将目标问题输入预设的视觉问答模型中,输出预测的答案,其中视觉问答模型包括:提示样本生成模块,用于构建提示模板,并基于提示模板结合图像‑问题对的信息生成提示样本;嵌入提取模块,用于基于提示样本指导图像‑问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;嵌入融合模块,用于对文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;答案预测模块,用于基于融合嵌入预测视觉问答任务的答案。本发明能够准确进行视觉问答。
-
-
-