-
公开(公告)号:CN113627243A
公开(公告)日:2021-11-09
申请号:CN202110740206.8
申请日:2021-06-30
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本申请公开了一种文本识别方法及相关装置。该方法包括:获取文本图片;文本图片为包括目标文本的图片;将文本图片输入至文本识别网络进行识别,得到目标文本;文本识别网络的各个层级同时利用文本图片的局域信息和序列信息对目标文本进行识别,局域信息包括目标文本的结构信息,序列信息包括目标文本的上下文序列信息。本方法在基于文本识别网络对文本图片进行识别的过程中,通过并行提取文本图片的局域视觉信息和上下文序列信息,并将文本图片的局域视觉信息和上下文序列信息交互融合,使得在文本识别网络的各个层级都能同时利用文本图片的二元信息,解决了识别过程中文本字符遗漏或是错位的问题,提高了文本识别的准确率及效率。
-
公开(公告)号:CN113627242A
公开(公告)日:2021-11-09
申请号:CN202110738496.2
申请日:2021-06-30
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本申请公开了一种文本处理方法及相关装置。该方法包括:获取第一文本图片;第一文本图片为包括第一文本的图片;将第一文本图片输入至文本矫正网络进行文本矫正,得到包括第二文本的第二文本图片;文本矫正网络为利用第一文本中的每个字符的位置信息进行矫正的网络,第二文本的文本内容与第一文本的文本内容相同,第二文本图片中的第二文本为水平文本。本方法对于输入的文本图片,通过检测其包含的文本信息得到每个字符的位置信息,并利用该位置信息重构出每个字符的坐标框,再根据该坐标框对字符进行更精细的控制点采样,使得矫正后的文本更加水平,提高了文本矫正的准确率及效率,进而提高文本识别的准确率及效率。
-
公开(公告)号:CN118506381A
公开(公告)日:2024-08-16
申请号:CN202410684204.5
申请日:2024-05-30
Applicant: 中国科学院深圳先进技术研究院 , 上海人工智能创新中心
IPC: G06V30/244 , G06V30/19 , G06V30/164 , G06F40/109 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 本申请提供了一种字体生成方法、装置、电子设备及存储介质,涉及计算机技术领域。其中,该方法包括:获取源图像和目标图像,其中,所述源图像为包含源字体的图像,所述目标图像为包含目标字体的图像;调用字体生成模型,以基于所述字体生成模型的扩散过程将所述源图像中的源字体转换为所述目标图像中的目标字体的字体格式,并生成指示转换后的源字体的字体生成结果。本申请解决了相关技术中字体生成的效果差的问题。
-
公开(公告)号:CN113158822A
公开(公告)日:2021-07-23
申请号:CN202110336212.7
申请日:2021-03-29
Applicant: 中国科学院深圳先进技术研究院 , 中山大学中山眼科中心
Abstract: 本申请适用于人工智能技术领域,提供了基于跨模态关系推理的眼部检测数据的分类方法及装置,包括:获取视野VF数据和视盘数据;将VF数据和视盘数据输入已训练的卷积神经网络模型,得到VF数据和视盘数据对应的分类结果,其中,卷积神经网络模型对VF数据和视频数据的处理过程包括:分别提取VF数据和视盘数据的数据特征,得到VF数据特征和视盘数据特征,对VF数据特征和视盘数据特征进行联合处理,得到VF数据的增强特征和视盘数据的增强特征,将VF数据的增强特征和视盘数据的增强特征进行特征融合,得到融合特征,将融合特征进行分类,得到分类结果。通过上述方法,能够得到更准确的分类结果。
-
公开(公告)号:CN111488873A
公开(公告)日:2020-08-04
申请号:CN202010260170.9
申请日:2020-04-03
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明公开了一种基于弱监督学习的字符级场景文字检测方法与装置。该方法包括:对于自然场景下的文字图像和裁剪后的文字区域图像,使用第一模型对裁剪后的文字区域图像进行强监督训练和弱监督训练,使用第二模型对自然场景下的文字图像进行强监督训练和弱监督训练,其中在弱监督训练过程中,第一模型在单词级或者文本行级的文字图像中预测字符框,以生成自然场景下的文字图像对应的假的字符热图和连接热图,提供给第二模型作为训练的监督。利用本发明能够更准确地进行文字检测。
-
公开(公告)号:CN117876955A
公开(公告)日:2024-04-12
申请号:CN202311714678.1
申请日:2023-12-13
Applicant: 中国科学院深圳先进技术研究院
IPC: G06V20/52 , G06V10/774 , G06V10/82 , G06V10/764 , G06N3/0464
Abstract: 本申请涉及图像分析技术领域,揭示了一种图像分析方法、装置、计算机设备及存储介质,方法包括:获取待检测图像;根据识别模型,得到待检测图像中的各个物体各自对应的物体类型向量以及物体位置向量,其中,识别模型是基于残差网络层、卷积层、位置编码层、编码自注意力机制层、解码自注意力机制模块、前馈神经网络层训练得到的;对各个物体类型向量进行向量分析,得到各个物体类型,对各个物体位置向量进行向量分析,得到物体位置,能够通过识别模型分析待检测图像中人或物的物体类型以及物体位置,提高了对待检测图像进行分析的效率以及准确率,使得而后可以对待检测图像存在的危险行为及时做出反应,并采取相应的保护措施,防止危险的发生。
-
公开(公告)号:CN111488873B
公开(公告)日:2023-10-24
申请号:CN202010260170.9
申请日:2020-04-03
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明公开了一种基于弱监督学习的字符级场景文字检测方法与装置。该方法包括:对于自然场景下的文字图像和裁剪后的文字区域图像,使用第一模型对裁剪后的文字区域图像进行强监督训练和弱监督训练,使用第二模型对自然场景下的文字图像进行强监督训练和弱监督训练,其中在弱监督训练过程中,第一模型在单词级或者文本行级的文字图像中预测字符框,以生成自然场景下的文字图像对应的假的字符热图和连接热图,提供给第二模型作为训练的监督。利用本发明能够更准确地进行文字检测。
-
公开(公告)号:CN113158822B
公开(公告)日:2023-09-29
申请号:CN202110336212.7
申请日:2021-03-29
Applicant: 中国科学院深圳先进技术研究院 , 中山大学中山眼科中心
IPC: G06V40/16 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请适用于人工智能技术领域,提供了基于跨模态关系推理的眼部检测数据的分类方法及装置,包括:获取视野VF数据和视盘数据;将VF数据和视盘数据输入已训练的卷积神经网络模型,得到VF数据和视盘数据对应的分类结果,其中,卷积神经网络模型对VF数据和视盘数据的处理过程包括:分别提取VF数据和视盘数据的数据特征,得到VF数据特征和视盘数据特征,对VF数据特征和视盘数据特征进行联合处理,得到VF数据的增强特征和视盘数据的增强特征,将VF数据的增强特征和视盘数据的增强特征进行特征融合,得到融合特征,将融合特征进行分类,得到分类结果。通过上述方法,能够得到更准确的分类结果。
-
公开(公告)号:CN115345979A
公开(公告)日:2022-11-15
申请号:CN202210832344.3
申请日:2022-07-15
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明公开一种无监督的通用艺术字生成方法。该方法包括:构建通用艺术字生成模型,包括编码器、第一解码器和第二解码器;优化通用艺术字生成模型,优化过程包括去纹理化阶段、字体迁移阶段和纹理化阶段,在去纹理化阶段,输入图像为字体参考图像,经过编码器和第二解码器后去除掉该字体参考图像所带的纹理信息,得到对应的掩膜图像;在字体迁移阶段,输入图像为内容图像和去纹理化阶段得到的掩模图像,经过编码器和第一解码器后得到对内容图像做字体迁移后的图像;在纹理化阶段,输入图像为字体迁移阶段得到的图像和纹理参考图像,经过编码器和第二解码器后得到纹理化结果图像。本发明可以实现在艺术字生成过程中的精细调节且通用性强。
-
公开(公告)号:CN119068497A
公开(公告)日:2024-12-03
申请号:CN202310645742.9
申请日:2023-06-01
Applicant: 中国科学院深圳先进技术研究院
IPC: G06V30/244 , G06V30/19 , G06V10/82 , G06N3/04
Abstract: 本申请涉及计算机视觉技术领域,特别涉及一种基于神经变换场的字体生成方法、系统、设备及介质,该方法包括以下步骤:基于源字体的结构信息,构建神经变换场;神经变换场中的位置与字体风格一一对应,每个位置代表一个特定的变换;构建字体风格估计器,并基于字体风格估计器对每种字体风格在神经变换场中的位置进行估计;基于估计的位置以及从原点到估计的位置的字体变换路径,生成多个采样点;并通过神经变换场计算采样点的字体像素的生成强度和耗散率,并得到中间变换结果;并通过字体渲染公式将中间变换结果进行累积,得到目标字体图像。本申请有效解决了现有方法在字体风格变换时缺乏对空间变换建模的问题,提升了字体生成方法的性能。
-
-
-
-
-
-
-
-
-