-
公开(公告)号:CN119631114A
公开(公告)日:2025-03-14
申请号:CN202280098308.7
申请日:2022-08-29
Applicant: 罗伯特·博世有限公司 , 清华大学
IPC: G06V20/52
Abstract: 本公开内容涉及一种用于密集预测的计算机实现的网络,该网络包括:多个子网络,其中多个子网络被级联在一起,并且多个子网络中的每个子网络包括用于多尺度特征提取的自下而上的子主干和用于多尺度特征融合的自上而下的反馈路径;子网络中的自下而上的子主干中和自上而下的反馈路径中的对应特征级别处的特征图之间的横向跳跃连接;以及跨相邻子网络的横向跳跃连接。
-
公开(公告)号:CN119541524A
公开(公告)日:2025-02-28
申请号:CN202411649966.8
申请日:2024-11-18
Applicant: 清华大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本公开涉及计算机技术领域,包括一种语音分离方法、装置及存储介质。通过获取待分离的混合信号;通过编码器将混合信号转换为时频特征表示;通过分离模型对时频特征表示进行特征分离,得到不同输出通道分别对应的特征序列;分离模型包括缓存单元和至少一个依次相连的分离单元;每个分离单元包括依次相连的频域建模子单元、时域建模子单元和因果注意细化子单元,各个分离单元中的时域建模子单元均与缓存单元相连;通过解码器对不同输出通道分别对应的特征序列进行解码,得到每个输出通道对应的时域语音信号;额外设置的缓存单元在全局建模期间可以存储历史信息,从而使得分离模型能够基于历史信息进行特征处理,可以提高模型整体的语音分离性能。
-
公开(公告)号:CN116863537A
公开(公告)日:2023-10-10
申请号:CN202310816352.3
申请日:2023-07-04
Applicant: 清华大学
Abstract: 本公开涉及一种视听语音分离方法、装置、电子设备和存储介质,获取包括目标对象声音和至少一个参考对象声音的视频信息,并提取视频信息中的目标对象唇部图像帧组成的图像帧序列和混合音频,分别进行编码得到目标对象对应的视频特征和音频特征。将视频特征和音频特征输入训练得到的多模态分离网络,通过多次特征融合后得到目标对象对应的声音掩码,多模态分离网络包括用于进行三次特征融合的顶部模块、中部模块和底部模块。根据声音掩码和音频特征确定记录目标对象声音的目标音频。本公开通过三个模块多次融合视觉和听觉两个层面的信息,增强了模态内上下文信息,提高了视听分离性能得到准确的音频分离结果。
-
公开(公告)号:CN116129929A
公开(公告)日:2023-05-16
申请号:CN202211584453.4
申请日:2022-12-09
Applicant: 清华大学
IPC: G10L21/0272 , G06F18/25 , G06V20/40 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/048 , G10L21/0308 , G10L25/03 , G10L25/30
Abstract: 本公开涉及一种视听语音分离方法、装置、电子设备以及存储介质,通过对包括混合音频数据以及至少一个对象的影像数据的视频信息进行特征提取得到听觉特征,和每个影像数据对应的视觉特征。将目标对象对应的视觉特征与听觉特征一同输入语音分离网络,得到目标对象的目标听觉特征以确定目标音频数据。其中,语音分离网络包括处理视觉特征的视觉子网络、处理听觉特征的听觉子网络和整合视觉子网络和听觉子网络的输出特征多模态融合子网络。本公开通过视觉子网络和听觉子网络分别处理视觉特征和听觉特征,并通过多模态融合子网络对视觉特征和听觉特征进行传递和整合,以基于视觉特征和听觉特征准确的重建目标音频数据。
-
公开(公告)号:CN108985382B
公开(公告)日:2022-07-15
申请号:CN201810831627.X
申请日:2018-07-26
Applicant: 清华大学
IPC: G06K9/62
Abstract: 本发明属于对抗样本检测技术领域,尤其涉及一种基于关键数据通路表示的对抗样本检测方法,包括:将神经网络中各个隐含层的数据张量均关联一组控制门单元;利用原始样本输出的结果作为自监督信息,对控制门单元发放进行稀疏约束,得到基于交叉熵损失函数和稀疏度平衡参数的优化目标函数;初始化所有控制门单元数值为1,采用梯度下降算法对同一样本输入进行多轮迭代,求得能够达到的最小交叉熵损失函数且样本预测输出类别与原类别保持一致的控制门单元组合作为该样本的关键数据通路;采用二分类器对正常样本和对抗样本分别所对应的关键数据通路特征在高层所产生的差别进行训练,训练结束后利用该二分类器进行对抗样本检测。
-
公开(公告)号:CN112149415A
公开(公告)日:2020-12-29
申请号:CN202011086728.2
申请日:2020-10-12
Applicant: 清华大学
IPC: G06F40/284 , G06F40/253 , G06N3/04
Abstract: 本公开涉及一种文本生成模型的训练方法、装置及可读存储介质。该文本生成模型的训练方法,包括:获取文本生成模型生成的第一文字序列;利用预设词库中的替换词,替换第一文字序列中的目标词,以得到第二文字序列;根据损失函数的值,调整文本生成模型的模型参数,得到训练后的文本生成模型,训练后的文本生成模型用于根据输入内容生成所述输入内容对应的文字序列。根据本公开实施例的文本生成模型的训练方法、装置及可读存储介质,能够基于内容变化和长度变化向模型反馈生成的文字序列中各目标词是否准确,从而使模型得到更多的指导信息,提高生成文字序列的准确度。
-
公开(公告)号:CN109840530A
公开(公告)日:2019-06-04
申请号:CN201711187395.0
申请日:2017-11-24
IPC: G06K9/62
Abstract: 本申请提供了训练多标签分类模型的方法和装置,能够动态学习图像特征,使特征提取网络更适应任务需求,并且多标签分类效果好。该方法包括:在训练数据集中确定n个样本和与所述n个样本对应的标签矩阵Yc*n,所述标签矩阵Yc*n中的元素yi*j表示第i个样本是否包含第j个标签指示的对象,c表示与样本相关的标签的个数;利用特征提取网络提取所述n个样本的特征矩阵Xd*n;利用特征映射网络获取所述特征矩阵Xd*n的预测标签矩阵 所述预测标签矩阵 中的元素 表示第i个样本包含第j个标签指示的对象的置信度;根据所述标签矩阵Yc*n和所述预测标签矩阵 ,对所述权值参数Z、所述特征映射矩阵Mc*d进行更新,训练所述多标签分类模型。
-
公开(公告)号:CN107644630A
公开(公告)日:2018-01-30
申请号:CN201710898166.3
申请日:2017-09-28
Applicant: 清华大学
Abstract: 本申请提供一种基于神经网络的旋律生成方法及装置,其中所述方法包括:获取初始音符序列、预设时长和所述预设时长的初始特征,所述初始音符序列中时长最小的音符的时长小于所述预设时长;根据所述预设时长、所述初始特征和时长神经网络模型,计算各预设时长的时长特征;根据计算出的各预设时长的时长特征、所述初始音符序列和音符神经网络模型,计算音符,并根据计算出的音符获取旋律。通过提取旋律的不同时间尺度的特征,考虑了旋律在不同的时长的结构特征,在生成旋律时,通过利用训练完成的各类神经网络模型的协作,生成具有良好长程结构的旋律片段,提高了生成旋律的真实性,能够保证听觉上的效果。
-
公开(公告)号:CN114550217B
公开(公告)日:2024-12-03
申请号:CN202210188033.8
申请日:2022-02-28
Applicant: 清华大学
IPC: G06V40/10 , G06V10/764
Abstract: 本公开涉及一种对抗图像生成方法及装置、以及目标覆盖物加工方法,所述方法包括:根据概率信息,获得第一概率图像;根据第一概率图像,获得对抗图像块;根据对抗图像块和第一红外图像,获得第二红外图像;通过目标检测网络对第二红外图像进行检测,获得目标检测结果;根据目标检测结果对第一概率图像进行优化,获得对抗图像。根据本公开的实施例的对抗图像生成方法,可基于第一概率图像生成对抗图像块,并对红外图像中的目标对象进行覆盖,使得对抗图像块不受维度的限制,可应用于红外图像中的三维的行人,无需使红外图像中的行人以特定角度面向红外摄像头。
-
公开(公告)号:CN117854068A
公开(公告)日:2024-04-09
申请号:CN202410051638.1
申请日:2024-01-12
Applicant: 清华大学
Abstract: 本公开涉及一种点云标注方法及装置、电子设备和存储介质,所述方法包括:获取传感器采集的第一帧点云数据和与所述第一帧点云数据对应的第一帧图像数据;根据所述第一帧点云数据拟合出与第一障碍物所在平面贴合的第一虚拟平面;响应于针对所述第一帧点云数据的框选操作得到第一位置点集合,所述第一位置点集合表示所述第一帧点云数据中与所述第一障碍物对应的三维坐标点的集合;基于所述第一位置点集合和所述第一虚拟平面形成第一包围盒,所述第一包围盒用于指示所述第一帧点云中的所述第一障碍物。本公开实施例能够在地面倾斜以及激光雷达安装不平等情况下准确快速地对目标物体的尺寸信息和角度完整表示与标注。
-
-
-
-
-
-
-
-
-