-
公开(公告)号:CN119342233A
公开(公告)日:2025-01-21
申请号:CN202411299969.3
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于时空令牌合并的视频处理方法、装置、电子设备及存储介质,属于视频处理技术领域,包括:获取第一组令牌和第二组令牌,其中,第一组令牌和第二组令牌为一组视频帧中相邻的两个视频帧对应的两组令牌;将第一组令牌和第二组令牌输入第一变换器块,得到第一变换器块输出的部分第一组令牌、部分第二组令牌和一组时序合并令牌;将部分第一组令牌、部分第二组令牌和一组时序合并令牌进行拼接,得到第三组令牌;将第三组令牌输入第二变换器块,得到第二变换器块输出的第四组令牌。本发明提供的基于时空令牌合并的视频处理方法,解决了相关技术中的基于时空令牌合并的视频处理方法,存在视频信息容易丢失且处理性能有限的技术问题。
-
公开(公告)号:CN119314081A
公开(公告)日:2025-01-14
申请号:CN202411355315.8
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/44 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/049
Abstract: 本公开提供了一种视频分类方法、装置、电子设备、存储介质和程序产品,视频分类方法包括:获取目标视频帧序列;对目标视频帧序列进行树状取样,得到两层结构的视频帧序列和关键帧;基于卷积神经网络模型对视频帧序列进行特征提取处理,得到时序特征;基于脉冲神经网络模型对关键帧进行特征提取处理,得到脉冲特征;对时序特征和脉冲特征进行融合处理,得到视频融合特征;根据视频融合特征进行分类处理,得到目标视频帧序列的类别信息。该方法能够提升视频的特征表达力,从而提升了视频分类的准确性,能够更好地完成视频分类任务。
-
公开(公告)号:CN117216580A
公开(公告)日:2023-12-12
申请号:CN202310550454.5
申请日:2023-05-15
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。
-
公开(公告)号:CN111626373B
公开(公告)日:2023-07-25
申请号:CN202010484081.2
申请日:2020-06-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/40 , G06V10/82 , G06N3/0464
Abstract: 本发明属于机器学习领域,具体涉及一种多尺度加宽残差网络、小目标识别检测网络及其优化方法,本发明多尺度加宽残差网络包括串行连接的多尺度加宽卷积层、多尺度加宽残差网络单元结构;所述多尺度加宽卷积层,包括并行设置的多个不同尺度的卷积核,其输出为所述多个不同尺度的卷积核提取特征的合并;所述多尺度加宽残差网络单元结构,包括多个串联设置的所述多尺度加宽卷积层,设定两个所述多尺度加宽卷积层之间跃层连接,以直接将两层输出特征取大融合。基于本发明得到的特征进行小目标识别检测,可以提高小目标物体识别的准确度。
-
公开(公告)号:CN114549912B
公开(公告)日:2022-07-15
申请号:CN202210436894.3
申请日:2022-04-25
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V10/764 , G06V10/82 , G06K9/00 , G06K9/62 , G06N3/04
Abstract: 本申请提供一种引力波侯选体筛选方法、装置及存储介质,其中方法包括:确定多探测器联合观测的观测数据的相干信噪比;将所述相干信噪比投射到天区图后得到目标二维图像;将所述目标二维图像输入至引力波侯选体筛选模型,得到所述引力波侯选体筛选模型输出的引力波侯选体筛选结果;所述引力波侯选体筛选模型是基于目标二维图像样本及预先确定的引力波侯选体标签训练后确定的。本申请通过模拟多探测器对同一天区图进行联合观测的观测结果,确定联合观测的相干信噪比,减少了噪声对信号的干扰,提升了观测数据的信噪比,同时结合深度学习算法,利用引力波侯选体筛选模型实现引力波信号的自动筛选识别。
-
公开(公告)号:CN114627139A
公开(公告)日:2022-06-14
申请号:CN202210267325.0
申请日:2022-03-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了基于像素特征学习的无监督图像分割方法、装置及设备,其中,所述方法包括:获取预处理后的待分割图像,作为第一图像;提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数;根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。通过上述方式,本发明可以有效发现图像中的潜在对象类别,输出的分割块能够精准匹配对象轮廓,同时能够完整地覆盖对象区域,进而大幅度降低下游高级视觉算法的训练难度和计算复杂性。
-
公开(公告)号:CN114550460A
公开(公告)日:2022-05-27
申请号:CN202210436887.3
申请日:2022-04-25
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本申请提供一种轨道交通异常检测方法、装置及存储介质,其中方法包括:获取轨道交通设备中被监测传感器的时间序列数据;将所述时间序列数据输入至轨道交通异常检测模型,得到所述轨道交通异常检测模型输出的轨道交通异常检测结果;所述轨道交通异常检测模型包括可变形Transformer编码模块、全局特征提取模块和可变形Transformer解码模块,所述可变形Transformer编码模块用于提取所述时间序列数据的多尺度特征,所述全局特征提取模块用于提取所述时间序列数据的全局特征,所述可变形Transformer解码模块用于基于所述时间序列数据的多尺度特征和全局特征生成所述轨道交通异常检测结果。
-
公开(公告)号:CN111126494A
公开(公告)日:2020-05-08
申请号:CN201911360305.2
申请日:2019-12-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及深度学习与图像分类领域,具体涉及一种基于各向异性卷积的图像分类方法及系统,目的在于解决当图像分辨率低、物体尺度和形态多变等情况下难以保证物体分类识别的精度的问题。本发明的图像分类方法包括:步骤A1,根据设定的标准图像大小,将训练图像与待分类图像都进行预处理;步骤A2,利用利用损失函数与预处理后的训练样本对神经网络进行训练优化,其中,神经网络包括各向异性卷积层;步骤A3,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。本发明的神经网络能快速提取判别性特征因子,准确锁定图像中的物体轮廓,较好应对小图像、多形变等分类难题,从而充分挖掘了图像的空间信息,提高了物体分类的准确度。
-
公开(公告)号:CN110782019A
公开(公告)日:2020-02-11
申请号:CN201911029615.6
申请日:2019-10-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/04
Abstract: 本发明属于人工智能领域,具体涉及一种基于分解和剪枝的卷积神经网络压缩方法、系统、装置,旨在解决采用低秩近似分解或结构化稀疏剪枝进行卷积神经网络压缩,导致压缩力度较小的问题。本系统方法包括将每个待压缩的卷积层后面添加一层系数矩阵表示层;通过低秩近似分解算法对系数矩阵表示层进行稀疏处理,并根据系数矩阵表示层稀疏的位置对对应的卷积层的滤波器进行剪枝处理;采用结构化稀疏剪枝方法对分解后的系数矩阵表示层进行稀疏处理,并根据系数矩阵表示层稀疏的位置对其滤波器进行剪枝处理;对稀疏剪枝处理后的卷积神经网络进行训练。本发明通过将低秩近似分解和结构化稀疏剪枝两种方法融合,解决了单一方法引起的缺陷,提高了压缩力度。
-
公开(公告)号:CN110215216A
公开(公告)日:2019-09-10
申请号:CN201910500528.8
申请日:2019-06-11
Applicant: 中国科学院自动化研究所
IPC: A61B5/11
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于骨骼关节点分区域分层次的行为识别方法、系统、装置,旨在为了解决有效提高行为识别准确率同时减少网络层数的问题。本发明方法包括:获取输入视频的各帧图像,从各帧图像中分别提取骨骼关节点;对每一帧图像,将其中所提取的所述骨骼关节点划分至所划分的各人体区域,并通过图卷积操作获取对应的特征表示,得到第一层特征表示集;对每一帧图像,按照所述各人体区域,基于所述第一层特征表示,通过池化、图卷积方法逐层减少关节点数量,直至通过多层聚合得到一个特征向量,并将该特征向量输入到两个全连接层得到行为类别。本发明提高了行为识别的准确率,加快了训练速度与检测速度。
-
-
-
-
-
-
-
-
-