-
公开(公告)号:CN114528762A
公开(公告)日:2022-05-24
申请号:CN202210148011.9
申请日:2022-02-17
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请公开一种模型训练方法、装置、设备和存储介质,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。获取舞蹈视频中的视觉信息和音频信息,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本申请将视觉信息和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得预训练模型更好地适应于各种舞蹈类型的下游任务,并且性能表现理想。
-
公开(公告)号:CN114528762B
公开(公告)日:2024-02-20
申请号:CN202210148011.9
申请日:2022-02-17
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F18/214 , G06F18/25 , G06N3/0455 , G06N3/098
Abstract: 本申请公开一种模型训练方法、装置、设备和存储介质,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。获取舞蹈视频中的视觉信息和音频信息,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本申请将视觉信息和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得预训练模型更好地适应于各种舞蹈类型的下游任务,并且性能表现理想。
-