-
公开(公告)号:CN109522942A
公开(公告)日:2019-03-26
申请号:CN201811269756.0
申请日:2018-10-29
Applicant: 中国科学院深圳先进技术研究院
CPC classification number: G06K9/6267 , G06K9/629 , G06N3/0454 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,提出一种图像分类方法、装置、终端设备和计算机存储介质。在获取待分类图像之后,将该待分类图像输入预先构建的卷积神经网络模型,得到该待分类图像的图像特征;然后从预设的文本库中选取与该待分类图像对应的目标文本,将该目标文本转换为词向量,输入预先构建的循环神经网络模型,得到该目标文本的文本特征;接着结合该文本特征对该图像特征进行加权叠加处理,得到加权图像特征;最后采用双线性乘法融合该加权图像特征和该文本特征,利用融合后的特征完成两类分类,得到该待分类图像的图像类别。采用本发明能够解决高细粒度图像分类的问题。
-
公开(公告)号:CN109522818A
公开(公告)日:2019-03-26
申请号:CN201811268476.8
申请日:2018-10-29
Applicant: 中国科学院深圳先进技术研究院
IPC: G06K9/00
Abstract: 本发明实施例适用于信息技术领域,提供了一种表情识别的方法、装置、终端设备及存储介质,所述方法包括:获取包含人脸图像的待识别的视频信息;从待识别的视频信息中分别提取多帧视频序列和音频信息;识别多帧视频序列对应的图像表情识别概率和动态表情识别概率;以及,识别音频信息对应的音频情感识别概率;基于图像表情识别概率、动态表情识别概率和音频情感识别概率,生成与待识别的视频信息中人脸图像相对应的表情识别结果。本实施例通过将音频信息作为重要的互补信息,并减少视频序列中不显著表情和质量不好的视频帧对识别带来的负面影响,关注视频帧中的显著表情,提高了视频表情识别的准确率和鲁棒性。
-
公开(公告)号:CN109359539A
公开(公告)日:2019-02-19
申请号:CN201811080219.1
申请日:2018-09-17
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明属于视频图像处理领域,尤其涉及一种注意力评估方法、装置、终端设备及计算机可读存储介质。所述方法首先获取待评估用户的视频,然后从所述视频中提取所述待评估用户的特征,并将所述待评估用户的特征输入到回归网络中进行处理,由于所述回归网络为预先训练好的进行注意力评估的神经网络模型,使用其对待评估用户的特征进行处理,可以得到对所述待评估用户的注意力评估结果。通过本发明,可以在电子课堂教育中,使得教师充分地了解到学生的注意力情况,针对学生的注意力情况及时对教学方式进行调整,从而带来教学效果的显著提升。
-
公开(公告)号:CN104751153B
公开(公告)日:2018-08-14
申请号:CN201310753559.7
申请日:2013-12-31
Applicant: 中国科学院深圳先进技术研究院
IPC: G06K9/20
Abstract: 本发明适用于文字识别技术领域,提供了一种识别场景文字的方法及装置,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取该文本图像中的全局特征;将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出该成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。本发明避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,并且利用深信度网络有效地降低误检测率,提高了文字识别的效率和准确率。
-
公开(公告)号:CN108229543A
公开(公告)日:2018-06-29
申请号:CN201711403379.0
申请日:2017-12-22
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明提供了一种图像分类模型设计方法及装置,其中方法包括:根据有标签的图像数据库,训练得到图像分类的初始网络模型;根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;根据所述损失函数,优化所述最终网络模型。本发明提供的图像分类模型设计方法及装置,对训练样本的数量要求较低,减小了设计的难度和成本,并且有效解决了标注歧义性的问题。
-
公开(公告)号:CN105809179A
公开(公告)日:2016-07-27
申请号:CN201410855634.5
申请日:2014-12-31
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明适用于电子技术领域,提供了一种指针式仪表的读数识别方法及装置,包括:按照预设的图像分割方法,将指针式仪表的待识别表盘图像以指针旋转轴为中心按照角度n分割为360/n个等角区域;将所述待识别表盘图像输入预先构建并训练的卷积神经网络;经过所述卷积神经网络,输出指针位于各个所述等角区域的概率值;根据概率值最大的所述等角区域在所述待识别表盘图像中的位置确定所述待识别表盘图像的指针读数。本发明利用卷积神经网络来识别指针式仪表的指针位置,再根据指针的位置来确定指针读数,消除了因客观条件所造成的读数识别不准确的现象,大大地提高了指针式仪表读数的识别准确率。
-
公开(公告)号:CN105631426A
公开(公告)日:2016-06-01
申请号:CN201511016818.3
申请日:2015-12-29
Applicant: 中国科学院深圳先进技术研究院
CPC classification number: G06K9/00456 , G06K9/4671
Abstract: 本发明适用于计算机技术领域,提供了对图片进行文本检测的方法及装置,包括:获取进行文本检测的图片;将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。本发明基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。
-
公开(公告)号:CN105551036A
公开(公告)日:2016-05-04
申请号:CN201510909587.2
申请日:2015-12-10
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明属于计算机视觉技术领域,提供了一种深度学习网络的训练方法和装置。所述方法包括:将训练集中的图像分割为多个不同的patch;将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。通过本发明提高了深度学习训练中特征局部提取的精度。
-
公开(公告)号:CN105303185A
公开(公告)日:2016-02-03
申请号:CN201510854051.5
申请日:2015-11-27
Applicant: 中国科学院深圳先进技术研究院
IPC: G06K9/00
CPC classification number: G06K9/0061
Abstract: 本发明适用于计算机技术领域,提供了一种虹膜定位方法及装置。该方法包括:获取虹膜图像,并对虹膜图像进行标定;生成二值化掩膜标签;根据虹膜图像和二值化掩膜标签生成训练数据;建立反卷积神经网络;将训练数据输入反卷积神经网络中,计算训练数据的特征数据;根据特征数据和二值化掩膜标签训练反卷积神经网络分类器;通过反卷积神经网络分类器对特征数据进行分类,以对虹膜图像进行虹膜定位。本发明提出了一种基于反卷积神经网络的虹膜定位技术方案,能够实现虹膜定位的监督学习;对虹膜图像的质量要求较低,反卷积神经网络的网络规模较小,训练参数较少,计算量较小,节约了时间和存储开销;避免了局部极值,实现了更加精确的虹膜定位。
-
公开(公告)号:CN104751153A
公开(公告)日:2015-07-01
申请号:CN201310753559.7
申请日:2013-12-31
Applicant: 中国科学院深圳先进技术研究院
IPC: G06K9/20
Abstract: 本发明适用于文字识别技术领域,提供了一种识别场景文字的方法及装置,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取该文本图像中的全局特征;将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出该成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。本发明避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,并且利用深信度网络有效地降低误检测率,提高了文字识别的效率和准确率。
-
-
-
-
-
-
-
-
-