-
公开(公告)号:CN116091867B
公开(公告)日:2023-09-29
申请号:CN202310063908.6
申请日:2023-01-12
Applicant: 北京邮电大学
IPC: G06V10/774 , G06V10/764
Abstract: 本申请提供了一种模型训练、图像识别方法、装置、设备及存储介质,所述方法包括:在源域数据集中随机获取多个图像插曲;构建任务感知的自适应学习网络模型;将所述图像插曲输入所述自适应学习网络模型,得到所述图像插曲中的支持样本与查询样本的特征图;根据所述支持样本与所述查询样本的特征图确定分类损失,根据所述图像插曲与目标域数据集的域偏移确定自适应损失,根据所述分类损失与所述自适应损失确定整体损失;根据所述整体损失调整所述自适应学习网络模型,直至所述整体损失收敛为止。本申请中,通过将域偏移引入损失函数,从而使得训练后的模型可以兼顾具备不同域偏移的目标数据集,达到更准确的图像识别效果。
-
公开(公告)号:CN116563607A
公开(公告)日:2023-08-08
申请号:CN202310382101.9
申请日:2023-04-11
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请涉及一种基于跨数据集信息挖掘的细粒度图像识别方法与装置。所述方法包括:获取目标细粒度图像;将目标细粒度图像输入训练好的细粒度图像识别神经网络,其中,细粒度图像识别神经网络包括特征提取模块、空间注意力模块、特征去相关模块、特征汇聚模块、识别模块,特征提取模块、空间注意力模块、特征去相关模块、特征汇聚模块、识别模块均为基于跨数据集信息预先训练的;训练好的细粒度图像识别神经网络输出与目标细粒度图像对应的识别结果。本申请通过基于跨数据集信息预先训练的细粒度图像识别神经网络对目标细粒度图像进行识别,因为训练过程学习到了不同数据集之间的正负迁移,也平衡了跨数据集的正负迁移,从而提升了识别精准度。
-
公开(公告)号:CN115952255B
公开(公告)日:2023-12-05
申请号:CN202211457156.3
申请日:2022-11-21
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F16/683 , G06F16/783 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括:获取音频‑视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频‑视频信号的内容,克服了相关技术中没有考虑字幕差异
-
公开(公告)号:CN117115497A
公开(公告)日:2023-11-24
申请号:CN202310076588.8
申请日:2023-01-16
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/774 , G06N20/00
Abstract: 本公开提供了一种类别分类方法、装置、介质及设备,所述方法包括:定义在线类别挖掘数据结构;构构建分类模型,其中,所述分类模型包括:用于特征提取的编码器 和用于将提取到的特征投影到有判别力的表征空间的投影器 基于所述数据结构中用于训练的数据对所述分类模型进行训练;基于所述数据结构中用于测试的数据对训练后的分类模型进行分类测试。本公开的方法与现有技术相比,实现了不依赖辅助信息,面向开放数据,实例级即使预测的未见类别挖掘。在6个常用的分类数据集上验证了本公开所提方法的优越性。
-
公开(公告)号:CN116091867A
公开(公告)日:2023-05-09
申请号:CN202310063908.6
申请日:2023-01-12
Applicant: 北京邮电大学
IPC: G06V10/774 , G06V10/764
Abstract: 本申请提供了一种模型训练、图像识别方法、装置、设备及存储介质,所述方法包括:在源域数据集中随机获取多个图像插曲;构建任务感知的自适应学习网络模型;将所述图像插曲输入所述自适应学习网络模型,得到所述图像插曲中的支持样本与查询样本的特征图;根据所述支持样本与所述查询样本的特征图确定分类损失,根据所述图像插曲与目标域数据集的域偏移确定自适应损失,根据所述分类损失与所述自适应损失确定整体损失;根据所述整体损失调整所述自适应学习网络模型,直至所述整体损失收敛为止。本申请中,通过将域偏移引入损失函数,从而使得训练后的模型可以兼顾具备不同域偏移的目标数据集,达到更准确的图像识别效果。
-
公开(公告)号:CN115439845B
公开(公告)日:2023-05-02
申请号:CN202210922254.3
申请日:2022-08-02
Applicant: 北京邮电大学
Abstract: 本申请涉及一种基于图神经网络的图像外推方法、装置、存储介质及终端。其中,所述方法包括:获取图像外推的原始图像;根据所述原始图像和目标检测器,确定所述图像外推的无向场景图;根据所述无向场景图和图神经网络,推测所述图像外推的外推场景图;根据所述外推场景图、所述原始图像和生成对抗网络,生成所述图像外推的外推图像。本申请能够根据原始图像生成外推图像,且生成的外推图像更具真实性。
-
公开(公告)号:CN111860672B
公开(公告)日:2021-03-16
申请号:CN202010738474.1
申请日:2020-07-28
Applicant: 北京邮电大学
Abstract: 一种基于分块卷积神经网络的细粒度图像分类方法,涉及细粒度图像识别技术领域,解决现有方法将原始图像平均分块后输入到卷积神经网络中用于细粒度图像分类,存在感受野限制较弱的问题,本发明不引入额外的参数与运算,在预测过程中保留通用卷积神经网络的高效性,不需要过大的感受野的特性将输入特征图进行分块,每块分别进行卷积操作后,再重新拼接,具有较强的限制性。本发明将卷积的感受野按需要进行限制,使网络更加关注局部区域的特征,更适合应用于细粒度图像分类任务。本发明所述的细粒度图像分类方法,在不引入更多参数的前提下,限制卷积层的感受野范围,使卷积神经网络能够寻找较小的有判别力的局部区域。
-
公开(公告)号:CN117809654A
公开(公告)日:2024-04-02
申请号:CN202311593526.0
申请日:2023-11-27
Applicant: 北京邮电大学
Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。
-
公开(公告)号:CN117594060A
公开(公告)日:2024-02-23
申请号:CN202311435217.0
申请日:2023-10-31
Applicant: 北京邮电大学
Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。
-
公开(公告)号:CN115424053B
公开(公告)日:2023-05-02
申请号:CN202210879098.7
申请日:2022-07-25
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/084
Abstract: 本申请公开了一种小样本图像识别方法、装置、设备及存储介质,所述方法包括:获取待识别的图像,根据所述待识别的图像构建图像插曲,所述图像插曲中包含支持集和查询集;将所述图像插曲输入预训练的图像识别模型,所述图像识别模型为基于困难插曲训练的小样本图像识别模型;根据所述图像识别模型计算所述查询集中的图像与支持集中的图像类别的相似度,根据所述相似度确定待识别的查询集中的图像类别。本申请实施例提供的图像识别方法,能够利用较少的图像样本进行模型训练和图像识别,且将困难插曲融入小样本图像识别模型训练过程中,使小样本图像识别模型能够更加高效快速的进行训练,且训练好的模型稳定性更高,图像识别的准确率也更高。
-
-
-
-
-
-
-
-
-