一种模型推理服务、模型预训练装置及视频片段检索方法

    公开(公告)号:CN119719417A

    公开(公告)日:2025-03-28

    申请号:CN202311270462.0

    申请日:2023-09-27

    Abstract: 本申请提供了一种模型推理服务、模型预训练装置及视频片段检索方法,能够精确地检索视频中包含待检索目标的视频片段。该方法包括:获取用户输入的第一文本,其中所述第一文本用于描述待检索目标的信息;将所述第一文本输入视频片段检索模型中的文本编码器,获取所述视频片段检索模型输出的所述第一文本的第一文本特征向量;并将视频中的多个图像帧逐次输入所述视频片段检索模型中的图像编码器,获取所述视频片段检索模型输出的所述多个图像帧的图像特征向量;若所述多个图像帧的图像特征向量中存在与所述第一文本特征向量的相似度满足条件的目标图像特征向量,则将所述目标图像特征向量对应的图像帧作为对应所述待检索目标的图像帧并输出。

    图像处理方法和装置、存储介质
    4.
    发明公开

    公开(公告)号:CN117635735A

    公开(公告)日:2024-03-01

    申请号:CN202210999794.1

    申请日:2022-08-19

    Abstract: 本公开提供一种图像处理方法和装置、存储介质,涉及图像处理领域。图像处理方法包括:将源图像分割为预定数量D个相互不重叠的第一分块;利用预设的梯度算子计算全部第一分块中的每个第一分块的梯度值;将全部第一分块按照梯度平均值进行排序,以删除梯度平均值最小的前p个第一分块;利用预设的编码器对未被删除的D‑p个第一分块的分块嵌入特征和位置嵌入特征进行编码处理,以得到D个第二分块,其中D个第二分块中包括位于预定位置上的D‑p个编码可视分块和p个掩膜令牌;利用预设的解码器对全部第二分块和源图像的位置嵌入特征进行解码处理,以得到重构的源图像。

    图像编码、图像解码方法、装置、电子设备及存储介质

    公开(公告)号:CN116527897A

    公开(公告)日:2023-08-01

    申请号:CN202310484750.X

    申请日:2023-04-28

    Abstract: 本公开提供了一种图像编码、图像解码方法、装置、电子设备及存储介质。该方法包括:获取待编码图像及Vision Transformer模型;将待编码图像均分为相同大小的多个图像块;从多个图像块中确定出多个目标图像块;生成多个目标图像块对应的Image Tokens;将Image Tokens及多个图像块的图像块数量输入Vision Transformer模型,根据Vision Transformer模型输出多个Encoded Visible Patches和多个Mask Tokens;向解码端发送多个Encoded Visible Patches和多个Mask Tokens。

Patent Agency Ranking