一种基于多模态大模型的风险内容识别方法

    公开(公告)号:CN119339419A

    公开(公告)日:2025-01-21

    申请号:CN202411330377.3

    申请日:2024-09-24

    Abstract: 本发明涉及人工智能技术领域,提供了一种基于多模态大模型的风险内容识别方法。方法包括:识别音频中的伪造部分;对目标人脸图像提取底噪特征和高频特征输入图像分割模型,定位伪造区域;对目标人脸图像进行切块,将切块得到的局部区域图像和全局图像输入视觉编码器提取视觉特征;计算文本特征和全局图像特征对局部图像特征的注意力,丢弃注意力小的局部图像特征;将音频分割模型、图像分割模型的输出、图像特征和问题输入大语言模型中,总结出风险点。本发明通过整合多种数据来源,并基于多模态大模型进行风险识别,提高了识别的准确性和鲁棒性,还能够有效应对多种诈骗手段,解决了现有技术无法应对多个模态的数据和缺乏可解释性的问题。

    基于条件扩散模型的甲骨文辅助破译方法

    公开(公告)号:CN117333881A

    公开(公告)日:2024-01-02

    申请号:CN202311295878.8

    申请日:2023-10-07

    Abstract: 本发明公开了一种基于条件扩散模型的甲骨文辅助破译方法:收集和整理已破译的甲骨文文字在甲骨文、金文、大篆、隶书和楷书五个阶段的字形演变数据;将两个不同时期的文字图片进行配对,并进行固定尺寸的随机裁剪操作;构建一个条件扩散模型神经网络,将成对图片送入神经网络中进行训练,优化网络参数;输入一张甲骨文文字图片,利用训练好的条件扩散模型对图片进行逆向扩散,并使用加权滑动方法生成甲骨文字形演变图片。本发明提出了一个简单而有效的甲骨文字形演变生成模型,利用已破译甲骨文不同时期文字图片的监督信息,达到了输入甲骨文图片,模型能够预测生成其在任意时期的字形图片的目的,从而辅助甲骨文专家对未破译的甲骨文进行破译。

    一种基于跨模态特征融合的手写签名认证方法和装置

    公开(公告)号:CN119810929A

    公开(公告)日:2025-04-11

    申请号:CN202411965306.0

    申请日:2024-12-30

    Inventor: 刘禹良 刘洋 尹亮

    Abstract: 本发明涉及深度学习技术领域,提供了一种基于跨模态特征融合的手写签名认证方法和装置。方法包括:使用签名图像和对应的签名序列共同进行签名认证,认证方法包括:使用预训练的ViT模型从签名图像中提取图像特征,使用预训练的Unet模型从签名序列中提取时序特征;对图像特征和时序特征进行特征融合,得到融合特征;将所述融合特征映射为多个低维特征向量,使用所述低维特征向量进行签名认证。本发明通过将签名序列纳入认证,并通过从签名图像中提取图像特征,从签名序列中提供时序特征,并进行特征融合,从而能够有效提高签名认证的准确性。

    基于多条件输入的人脸伪造分割方法

    公开(公告)号:CN119296186A

    公开(公告)日:2025-01-10

    申请号:CN202411330378.8

    申请日:2024-09-24

    Abstract: 本发明涉及人工智能技术领域,提供了一种基于多条件输入的人脸伪造分割方法。方法包括:提取到图像中的特征底噪;提取到图像中的高频信息。构建一个多条件输入分割神经网络,对多条件输入分割神经网络进行高效微调训练,直至多条件输入分割神经网络收敛。利用训练好的多条件输入分割神经网络模型对图片进行推理,分割神经网络模型最终输出和原始图像大小一致的二值分割图,检测并定位图像中的人脸伪造区域。本发明通过提取伪造图像中的特征底噪和高频信息,并将这些信息作为额外条件和原始图像一起输入到分割网络中,利用设计好的多条件输入高效微调架构对模型进行训练,使得模型能够预测二值分割图,从而检测并精准定位图像中的人脸伪造区域。

    基于深度学习的多语种马赛克图像文本识别方法

    公开(公告)号:CN116682120A

    公开(公告)日:2023-09-01

    申请号:CN202310524256.1

    申请日:2023-05-08

    Abstract: 本发明受人类视觉皮层观察‑练习‑完善的识别过程,提出了一种马赛克文字识别方法:采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对;首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征;然后通过重建模块对图像初步恢复;受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程,由视觉自注意力模块预测像素值;最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化;通过反向传播优化权重参数;由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。

    基于可插拔模块的深度学习语音辅助文字识别方法与装置

    公开(公告)号:CN116434732A

    公开(公告)日:2023-07-14

    申请号:CN202310111405.1

    申请日:2023-02-07

    Abstract: 本发明提出了一种基于可插拔模块的深度学习语音辅助文字识别方法:使用公开合成文本数据集作为图片训练数据,并提取出标签作为语料库,使用语音合成工具配对生成一定数量的语音数据;将图片‑语音数据送入识别网络中,分别得到图像特征和语音特征;将图像特征送入识别解码器,输出预测的字符序列;将可插拔模块接入场景文字识别网络,图像特征和语音特征经过可插拔模块中的语音解码器得到频谱特征;识别网络计算识别损失,可插拔模块计算语音频谱损失,反向传播优化识别网络权重参数;将可插拔模块拔出,由识别网络完成场景文字图像的识别。本发明使用语音信息以指导现有的场景文本识别网络,使其可以很容易的应用于现有的场景文字识别网络。

    图像处理方法及装置
    7.
    发明公开

    公开(公告)号:CN119399024A

    公开(公告)日:2025-02-07

    申请号:CN202411050172.X

    申请日:2024-08-01

    Abstract: 本申请涉及一种图像处理方法及装置,所述方法包括:获取原始图像以及针对所述原始图像的需求表述;对所述原始图像进行切块处理,得到多个局部图像块,其中,每个所述局部图像块为所述原始图像中相应的局部区域;对所述原始图像进行分辨率调整,得到目标图像,其中,所述目标图像的分辨率与每个所述局部图像块的分辨率一致;对多个所述局部图像块、所述目标图像以及所述需求表述进行处理,得到所述需求表述对应的答案表述。如此采用对原始图像进行切块的手段可以扩大处理高分辨率图像的能力,可以实现对高分辨率图像进行很好的处理。

    一种针对医疗多模态大模型的视觉语言特征精细对齐方法

    公开(公告)号:CN119357443A

    公开(公告)日:2025-01-24

    申请号:CN202411381995.0

    申请日:2024-09-30

    Abstract: 本发明涉及人工智能技术领域,提供了一种针对医疗多模态大模型的视觉语言特征精细对齐方法,方法包括:用人工智能大模型对医疗专家知识文本特征进行深度学习和语义理解,生成问答对指令;提取医疗专家知识视觉特征,转化为问答对指令;用问答对指令对医疗多模态大模型进行训练;用人工智能大模型生成医疗图文问答对指令;为医疗多模态大模型引入强化学习,利用医疗图文问答对指令,实现视觉语言特征精细对齐。本发明提出了全自动地生成高质量医疗多模态指令数据的方法,使医疗多模态大模型在各种医学应用中提供准确可靠的输出内容。数据生成的全流程无需人工标注,节省了人力与时间成本。同时减少了模型推理幻觉,提升模型性能。

    基于多模态大模型的手机截屏文本内容问答对生成方法

    公开(公告)号:CN119169640A

    公开(公告)日:2024-12-20

    申请号:CN202411271334.2

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。

Patent Agency Ranking