一种图像检测模型的损失函数优化方法

    公开(公告)号:CN119693736A

    公开(公告)日:2025-03-25

    申请号:CN202411629345.3

    申请日:2024-11-15

    Abstract: 本发明公开了一种图像检测模型的损失函数优化方法,其采用以下方式修正模型训练时的损失函数:S1、在损失函数中添加正则化项,初始化每个权重参数的权重衰减参数;S2、每次迭代或特定数量的迭代后,根据权重参数的重要性和所在的层次,动态调整权重参数对应的权重衰减参数;S3、将动态调整后的权重衰减参数应用于损失函数,计算正则化项;S4、循环步骤S2和S3,在整个训练过程中不断优化正则化参数,并获得一组正则化参数候选值;S5、在验证集上评估模型的性能,并从正则化参数候选值中选择最佳的正则化参数配置。本方案可以有效地减少神经网络模型的过拟合问题,提高模型的泛化能力和性能。

    一种数字音频剪辑高质量优化拼接方法

    公开(公告)号:CN114582376A

    公开(公告)日:2022-06-03

    申请号:CN202210054122.3

    申请日:2022-01-18

    Abstract: 本发明公开了一种数字音频剪辑高质量优化拼接方法,其包括以下步骤:S1、对前述音频信号结束波形分类,并对分类等级赋值,记为前述信号等级值;S2、对后续音频信号起始波形分类,并对分类等级赋值,记为后续信号等级值;S3、计算前述信号等级值和后续信号等级值的级差;S4、依据级差对前述音频信号进行调整;S5、将后续音频信号拼接到前述音频信号的末尾。本方案可以保证接续波形数据的连贯性,抑制了拼接噪声的发生,适用于音频剪辑处理。

    一种基于向量数据库的音频搜索方法

    公开(公告)号:CN118210942A

    公开(公告)日:2024-06-18

    申请号:CN202410013541.1

    申请日:2024-01-04

    Abstract: 本发明公开了一种基于向量数据库的音频搜索方法,向量数据库构建方法如下:S1、将原始音频转化为梅尔频谱的语谱图,再转换到对数刻度的语谱图;S2、将对数刻度语谱图进行压缩并二值化;S3、对二值化图像提取特征;S4、将特征向量与所对应的时间戳一起存入数据库;通过对所有待入库的音频进行步骤S1至步骤S4的处理,完成数据库的构建;进行音频搜索时,先将待匹配音频按照步骤S1至步骤S3进行处理,得到待匹配音频特征向量,然后将待匹配音频特征向量逐一与数据库中的特征向量两两计算相似度,从而得到最相似的特征向量以及所对应的时间戳,从而得到搜索的待匹配音频的准确位置。本方案适用于音频搜索领域。

    一种多模态大模型的交互式生成内容控制方法

    公开(公告)号:CN119514677A

    公开(公告)日:2025-02-25

    申请号:CN202411506353.9

    申请日:2024-10-28

    Abstract: 本发明公开了一种多模态大模型的交互式生成内容控制方法,包括如下步骤:步骤一,输入多模态令牌x、二进制高亮掩码m、指导强度Y和缩放因子a,然后进行初始化;步骤二,生成常规和无条件输入上下文对;步骤三,调整注意力权重,以在推理过程中,通过调整高亮部分的注意力权重来实现对生成内容的控制;步骤四,进行注意力激活,用调整后的注意力掩码重新加权相关的注意力分数,使生成过程更加集中于高亮部分,进而完成对于交互式生成内容的控制。本发明的多模态大模型的交互式生成内容控制方法,通过在输入上下文中高亮特定的提示部分,实现用户对生成内容的交互式控制,提升生成结果的相关性和准确性。

    一种基于专业领域知识生成多模态大模型预训练交错数据的方法

    公开(公告)号:CN119294485A

    公开(公告)日:2025-01-10

    申请号:CN202411236070.7

    申请日:2024-09-04

    Abstract: 本发明公开了一种基于专业领域知识生成多模态大模型预训练交错数据的方法,包括以下步骤:S1、对原始的专业领域知识数据进行清洗;S2、对清洗后的专业领域知识数据进行去重操作;S3、对去重后的专业领域知识数据按逗号进行切分;S4、提取一条切分后的数据的特征,并利用得到的特征在图像库中进行搜索,查找与该特征最接近的图像特征;S5、判定数据的特征与最接近的图像特征的相似度是否大于图文相似性阈值,是的话将该图像放置在该数据之前,否则跳过;S6、重复步骤S4和S5,直至所有切分后的数据被处理完,生成最终的专业领域交错数据。本方案可以构建足够数量且多样化的交错数据,以供提升多模态大模型的理解能力。

    一种基于向量的智能音效配音方法

    公开(公告)号:CN118280337A

    公开(公告)日:2024-07-02

    申请号:CN202410364083.6

    申请日:2024-03-28

    Abstract: 本发明公开了一种基于向量的智能音效配音方法,其包括以下步骤:S1、提取有声内容的向量特征;S2、提取音效内容的向量特征;S3、计算有声内容的向量特征和音效内容的向量特征之间的相似度,将相似度高于相似度阈值的音效内容以及此相似度对应的插入点位作为一次匹配结果存储;S4、用户播放有声内容时,对用户特征和一次匹配结果中的音效内容进行二次匹配,筛选出匹配度高于匹配度阈值的音效内容并融合到有声内容中,最终合成输出融合了音效的有声内容。一次匹配筛选出符合有声内容的音效,二次匹配可以结合用户兴趣爱好偏好再次优化匹配音效,达到音效千人千面。本方案适用于有声内容播放领域。

    一种基于向量的音频广告插入方法

    公开(公告)号:CN117975997A

    公开(公告)日:2024-05-03

    申请号:CN202410108781.X

    申请日:2024-01-26

    Abstract: 本发明公开了一种基于向量的音频广告插入方法,其包括以下步骤:S1、将节目音频进行向量化;S2、将广告音频进行向量化;S3、计算节目音频向量化结果和广告音频向量化结果的相似度,滤除相似度小于相似度阈值的广告音频向量化结果;S4、在剩余的广告音频向量化结果中选择最高相似度所对应的若干个广告音频作为插入广告,将插入广告插入到节目音频中。本方案解决了广告方式太过单一、曝光度低、音频节目植入音频广告需要二次修改、人力成本太高的问题,适用于网络电台、听书等应用场景。

    一种数字音频剪辑高质量优化拼接方法

    公开(公告)号:CN114582376B

    公开(公告)日:2024-02-23

    申请号:CN202210054122.3

    申请日:2022-01-18

    Abstract: 本发明公开了一种数字音频剪辑高质量优化拼接方法,其包括以下步骤:S1、对前述音频信号结束波形分类,并对分类等级赋值,记为前述信号等级值;S2、对后续音频信号起始波形分类,并对分类等级赋值,记为后续信号等级值;S3、计算前述信号等级值和后续信号等级值的级差;S4、依据级差对前述音频信号进行调整;S5、将后续音频信号拼接到前述音频信号的末尾。本方案可以保证接续波形数据的连贯性,抑制了拼接噪声的发生,适用于音频剪辑处理。

Patent Agency Ranking