用于媒体的变换译码的基于变换器的架构

    公开(公告)号:CN117980916A

    公开(公告)日:2024-05-03

    申请号:CN202280063767.1

    申请日:2022-09-15

    Abstract: 本文描述了用于使用神经网络系统来处理媒体数据的系统和技术。例如,过程可包括:获得经编码图像数据帧的潜在表示;以及通过解码器子网络的多个解码器变换器层使用该经编码图像数据帧的该潜在表示作为输入来生成经解码图像数据帧。该多个解码器变换器层中的至少一个解码器变换器层包括:一个或多个变换器块,该一个或多个变换器块用于生成一个或多个特征补丁并且在应用于该一个或多个补丁上的一个或多个窗口分区和移位窗口分区内局部地确定自注意力;和补丁去合并引擎,该补丁去合并引擎用于减小该一个或多个补丁中的每个补丁的相应大小。

    用于学习的视频压缩的多尺度光流

    公开(公告)号:CN116982311B

    公开(公告)日:2024-09-06

    申请号:CN202280020968.3

    申请日:2022-02-18

    Abstract: 描述了基于应用可变尺度扭曲的运动估计对数据进行编码和/或解码的系统和技术。编码设备可以接收输入帧和参考帧,其描述不同时间的场景。编码设备可以生成光流,该光流识别两个帧之间的场景中的移动。编码设备可以生成加权图,该加权图识别参考帧在输入帧预测时所进行的扭曲是如何精细或粗糙。编码设备可以基于光流和加权图生成经编码的视频数据。解码设备可以从经编码的数据生成经重构的光流和经重构的加权图。解码设备可以通过基于经重构的光流和经重构的加权图对参考帧进行扭曲,而生成预测帧。解码设备可以基于预测帧生成经重构的输入帧。

    使用深度生成性模型的视频压缩
    6.
    发明公开

    公开(公告)号:CN118488200A

    公开(公告)日:2024-08-13

    申请号:CN202410589230.X

    申请日:2020-03-19

    Abstract: 公开了使用深度生成性模型的视频压缩。本公开的某些方面涉及用于使用深度生成性模型来压缩视频内容的方法和装置。一种示例方法一般包括接收用于压缩的视频内容。一般通过自编码器将所接收的视频内容编码到隐代码空间中,该自编码器可由第一人工神经网络来实现。一般通过经训练的概率模型(经训练的概率模型可由第二人工神经网络实现)来生成经编码视频内容的经压缩版本,并且输出以供传输。

    使用深度生成性模型的视频压缩

    公开(公告)号:CN113574882B

    公开(公告)日:2024-05-31

    申请号:CN202080020726.5

    申请日:2020-03-19

    Abstract: 本公开的某些方面涉及用于使用深度生成性模型来压缩视频内容的方法和装置。一种示例方法一般包括接收用于压缩的视频内容。一般通过自编码器将所接收的视频内容编码到隐代码空间中,该自编码器可由第一人工神经网络来实现。一般通过经训练的概率模型(经训练的概率模型可由第二人工神经网络实现)来生成经编码视频内容的经压缩版本,并且输出以供传输。

    用于学习的视频压缩的多尺度光流

    公开(公告)号:CN116982311A

    公开(公告)日:2023-10-31

    申请号:CN202280020968.3

    申请日:2022-02-18

    Abstract: 描述了基于应用可变尺度扭曲的运动估计对数据进行编码和/或解码的系统和技术。编码设备可以接收输入帧和参考帧,其描述不同时间的场景。编码设备可以生成光流,该光流识别两个帧之间的场景中的移动。编码设备可以生成加权图,该加权图识别参考帧在输入帧预测时所进行的扭曲是如何精细或粗糙。编码设备可以基于光流和加权图生成经编码的视频数据。解码设备可以从经编码的数据生成经重构的光流和经重构的加权图。解码设备可以通过基于经重构的光流和经重构的加权图对参考帧进行扭曲,而生成预测帧。解码设备可以基于预测帧生成经重构的输入帧。

Patent Agency Ranking