一种基于Vision Transformer和强化学习的视频内容描述方法

    公开(公告)号:CN115249275B

    公开(公告)日:2025-03-25

    申请号:CN202111332783.X

    申请日:2021-11-11

    Abstract: 本发明公开了一种基于Vision Transformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用Vision Transformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。

    一种基于N-Gram的恶意域名检测方法

    公开(公告)号:CN109756510B

    公开(公告)日:2021-01-08

    申请号:CN201910070765.5

    申请日:2019-01-25

    Abstract: 本发明公开了一种基于N‑Gram的恶意域名检测方法,包括步骤:选择访问频次较高的合法域名,在去除顶级域名后,利用N‑Gram方法将域名按层进行分割,形成合法域名子串集;根据子串在对合法域名进行N‑Gram分割时出现的频次,给合法域名子串集中子串赋予权值,将域名词法特征的提取转化为数值计算;将待测域名进行N‑Gram分割,将得到的子串按照合法域名子串权值计算待测域名的信誉值;恶意域名检测,根据待测域名信誉值的大小和预设判定条件,判断待测域名是否为恶意域名。与现有技术相比,本发明具有检测时间开销小,检测准确率高、误报与漏报率低的优点,为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段。

    一种基于多特征的声纹识别方法

    公开(公告)号:CN111554306A

    公开(公告)日:2020-08-18

    申请号:CN202010336788.9

    申请日:2020-04-26

    Abstract: 本发明公开了一种基于多特征的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合;特征处理,利用PCA主成分分析法将动态特征进行降维处理;模型训练,利用I-Vector说话人识别模型对动态特征进行训练;打分判决,利用概率线性判决分析算法PLDA进行似然对数比打分,并根据得分的大小判断出两个集合是否为同一个说话人。本发明动态融合MFCC和PLP两种说话人特征,能更好地包含说话人信息,并通过主成分分析法PCA降低融合特征的维度,计算效率高,同时,不依赖于在线获取的说话人数据,可以单独、快速地完成说话人的识别。

    一种基于SE模块增强ViT模型鲁棒性的方法

    公开(公告)号:CN115146762A

    公开(公告)日:2022-10-04

    申请号:CN202210668973.7

    申请日:2022-06-14

    Abstract: 本发明公开了一种基于SE模块增强ViT模型鲁棒性的方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证所提出现有的ViT模型的防御方法在面对不同对抗样本时的鲁棒性;将对抗样本输入所提出ViT模型的Convolutional Token Embedding层,然后再通过归一化层;将S2得到的特征输入SE‑Transformer块,特征首先经过SE模块,然后计算特征的Query、Key和Value值;将步骤S2、S3重复执行,并在最后阶段中添加cls分类标记;使用MLP Head预测最终的类别,计算准确率。本发明利用SE模块突出每个特征图的重要信息,抑制次要信息,有助于模型进行关键特征的提取,强化通道的特征信息,减少无用的特征;同时结合ViT模型的自注意力机制(self‑attention)可以提取特征的长距离信息。

    基于内容的高时长视频色情内容检测方法

    公开(公告)号:CN113505247B

    公开(公告)日:2022-06-07

    申请号:CN202110747290.6

    申请日:2021-07-02

    Abstract: 本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。

    一种手机基站故障定位分析方法

    公开(公告)号:CN105978726B

    公开(公告)日:2019-03-26

    申请号:CN201610330117.5

    申请日:2016-05-18

    Abstract: 一种手机基站故障定位分析方法,该方法是基于众包模式的手机基站故障定位分析方法:当用户智能手机通过手机基站进行网络连接时,如果网络连接不畅通,利用安装在智能手机上的App获取该智能手机此时的网络连接方式,获取手机网络不通畅时的时间信息,通过GPS获取该智能手机用户位置信息,手机所连基站信息,该智能手机用户上网体验感知信息;并将这些信息保存到智能手机自带轻型数据库中,待智能手机通过基站或者WiFi网络连接正常时将所保存数据发送分析服务器中,分析服务器汇总与处理手机故障反馈数据,实现手机基站故障定位及分析。本发明利用分散在不同地理位置的零散资源并对其汇集与组织,完成对手机基站故障的检测与定位。

Patent Agency Ranking