-
公开(公告)号:CN119360893B
公开(公告)日:2025-05-06
申请号:CN202411523922.0
申请日:2024-10-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本公开关于声音分类方法、装置、电子设备、存储介质和计算机程序产品,包括:提取待分类的声音信号的音频特征;将音频特征输入脉冲残差模块,获得第一脉冲残差特征;将第一脉冲残差特征输入至少一个脉冲残差模块,获得第二脉冲残差特征;将第二脉冲残差特征以及经过下采样后的第一脉冲残差特征输入注意力特征融合模块,获得第一注意力融合特征;基于第一注意力融合特征,对待分类的声音信号进行分类。本公开可以充分利用脉冲神经网络(SNN)和残差神经网络的优势,可以实现高效、准确的进行声音分类,并可以显著降低系统功耗。
-
公开(公告)号:CN119152331B
公开(公告)日:2025-01-21
申请号:CN202411604124.0
申请日:2024-11-11
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及视觉目标跟踪和人工智能领域,提供一种视觉目标跟踪模型的训练方法及装置、跟踪方法及装置,该训练方法包括:获取多对训练样本;将训练样本输入到特征嵌入模块,得到模板图像特征和搜索图像特征;利用特征提取模块,执行特征提取操作,得到第一提取结果和第二提取结果;利用特征融合模块,对第一提取结果和第二提取结果进行融合,得到融合结果;利用预测头,基于融合结果进行预测,得到预测跟踪结果;基于预测跟踪结果、真实标注信息和蒸馏标注信息得到训练损失,对模型进行训练,得到训练好的视觉目标跟踪模型。本公开解决现有的单流跟踪器存在一定的计算冗余、限制推理速度的问题,在保留高推理速度的同时,提高模型的精度。
-
公开(公告)号:CN118350415A
公开(公告)日:2024-07-16
申请号:CN202410766204.X
申请日:2024-06-14
Applicant: 中国科学院自动化研究所
IPC: G06N3/0455 , G06N3/08 , G06N5/04 , G06F40/205
Abstract: 本发明提供一种Transformer模型、数据处理方法、电子设备及存储介质,应用于神经网络技术领域,包括:归一化层;归一化层用于按照目标处理单位对批量输入数据进行标准化操作,并对标准化操作后的数据进行仿射变换;归一化层具体用于:在所述归一化层的训练阶段,对于不同形状的输入数据,分别计算每个空间位置的数据的统计量,将当前统计量和对应形状的历史统计量取滑动平均后拉长为一维形状的统计量,并以原始形状为索引将所述一维形状的统计量保存在容器中,所述统计量包括均值和方差;在所述归一化层的推理阶段,根据输入数据的形状从所述容器中确定对应的统计量,并利用所述统计量进行标准化操作。
-
公开(公告)号:CN119152331A
公开(公告)日:2024-12-17
申请号:CN202411604124.0
申请日:2024-11-11
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及视觉目标跟踪和人工智能领域,提供一种视觉目标跟踪模型的训练方法及装置、跟踪方法及装置,该训练方法包括:获取多对训练样本;将训练样本输入到特征嵌入模块,得到模板图像特征和搜索图像特征;利用特征提取模块,执行特征提取操作,得到第一提取结果和第二提取结果;利用特征融合模块,对第一提取结果和第二提取结果进行融合,得到融合结果;利用预测头,基于融合结果进行预测,得到预测跟踪结果;基于预测跟踪结果、真实标注信息和蒸馏标注信息得到训练损失,对模型进行训练,得到训练好的视觉目标跟踪模型。本公开解决现有的单流跟踪器存在一定的计算冗余、限制推理速度的问题,在保留高推理速度的同时,提高模型的精度。
-
公开(公告)号:CN119360893A
公开(公告)日:2025-01-24
申请号:CN202411523922.0
申请日:2024-10-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本公开关于声音分类方法、装置、电子设备、存储介质和计算机程序产品,包括:提取待分类的声音信号的音频特征;将音频特征输入脉冲残差模块,获得第一脉冲残差特征;将第一脉冲残差特征输入至少一个脉冲残差模块,获得第二脉冲残差特征;将第二脉冲残差特征以及经过下采样后的第一脉冲残差特征输入注意力特征融合模块,获得第一注意力融合特征;基于第一注意力融合特征,对待分类的声音信号进行分类。本公开可以充分利用脉冲神经网络(SNN)和残差神经网络的优势,可以实现高效、准确的进行声音分类,并可以显著降低系统功耗。
-
-
-
-