-
公开(公告)号:CN118467707A
公开(公告)日:2024-08-09
申请号:CN202410919350.1
申请日:2024-07-10
Applicant: 北京大学 , 北京六元空间信息科技有限责任公司
IPC: G06F16/332 , G16H80/00 , G06F18/25 , G06F16/583 , G06N3/0455 , G06N20/00 , G06N5/04
Abstract: 本发明公开了一种医学视觉问答方法、装置、设备及存储介质,该方法包括:获取用户输入的目标图像和用户指令,并判断所述目标图像和所述用户指令是否符合医学视觉问答要求;在所述目标图像符合医学视觉问答要求时,将所述目标图像和所述用户指令输入至目标医学多模态大语言模型生成对应的目标答复,所述目标医学多模态大语言模型包括视觉编码器、文本编码器、基于注意力的图像分块选择器、上下文信息融合器和基于大语言模型的文本解码器;将所述目标答复返回至所述用户。相比于现有技术,由于本发明通过基于注意力的图像分块选择器和上下文信息融合器,提升了模型对图像关键区域的关注度和模型对上下文细节的理解能力,进而提升了答复准确性。
-
公开(公告)号:CN118467707B
公开(公告)日:2024-10-29
申请号:CN202410919350.1
申请日:2024-07-10
Applicant: 北京大学 , 北京六元空间信息科技有限责任公司
IPC: G06F16/332 , G16H80/00 , G06F18/25 , G06F16/583 , G06N3/0455 , G06N20/00 , G06N5/04
Abstract: 本发明公开了一种医学视觉问答方法、装置、设备及存储介质,该方法包括:获取用户输入的目标图像和用户指令,并判断所述目标图像和所述用户指令是否符合医学视觉问答要求;在所述目标图像符合医学视觉问答要求时,将所述目标图像和所述用户指令输入至目标医学多模态大语言模型生成对应的目标答复,所述目标医学多模态大语言模型包括视觉编码器、文本编码器、基于注意力的图像分块选择器、上下文信息融合器和基于大语言模型的文本解码器;将所述目标答复返回至所述用户。相比于现有技术,由于本发明通过基于注意力的图像分块选择器和上下文信息融合器,提升了模型对图像关键区域的关注度和模型对上下文细节的理解能力,进而提升了答复准确性。
-
公开(公告)号:CN118094273B
公开(公告)日:2025-03-21
申请号:CN202410078590.3
申请日:2024-01-19
Applicant: 北京大学
IPC: G06F18/23213 , G06F18/22
Abstract: 本申请涉及一种聚类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待聚类数据包括的多个样本以及各样本的目标权重;通过距离聚类算法以及各样本的目标权重,对多个样本进行聚类,得到第一聚类结果;确定第一聚类结果对应的区分参数,以及确定各簇分别对应的线性判别参数;基于各簇分别对应的线性判别参数对各样本的目标权重进行更新,基于更新后的目标权重,得到目标聚类结果。通过采用本方法,可以避免对数据进行压缩,保留数据的完整信息,通过加权距离以及实时更新的权重实现数据的聚类,提高了聚类的可靠性,通过动态迭代的方式实时对样本的权重进行更新,可以更好地适应动态变化的聚类过程,提升聚类效率。
-
公开(公告)号:CN118094273A
公开(公告)日:2024-05-28
申请号:CN202410078590.3
申请日:2024-01-19
Applicant: 北京大学
IPC: G06F18/23213 , G06F18/22
Abstract: 本申请涉及一种聚类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待聚类数据包括的多个样本以及各样本的目标权重;通过距离聚类算法以及各样本的目标权重,对多个样本进行聚类,得到第一聚类结果;确定第一聚类结果对应的区分参数,以及确定各簇分别对应的线性判别参数;基于各簇分别对应的线性判别参数对各样本的目标权重进行更新,基于更新后的目标权重,得到目标聚类结果。通过采用本方法,可以避免对数据进行压缩,保留数据的完整信息,通过加权距离以及实时更新的权重实现数据的聚类,提高了聚类的可靠性,通过动态迭代的方式实时对样本的权重进行更新,可以更好地适应动态变化的聚类过程,提升聚类效率。
-
-
-