一种说话人的身份确认方法和装置

    公开(公告)号:CN105810199A

    公开(公告)日:2016-07-27

    申请号:CN201410844272.X

    申请日:2014-12-30

    Inventor: 李志锋 李娜 乔宇

    Abstract: 本发明适用于语音技术领域,提供了一种说话人的身份确认方法和装置,包括:对训练语音提取JFA超向量并从中生成第一子向量;利用PCA算法将第一子向量投影到第一子空间中;对第一子空间进行随机采样得到Q个第二子空间;将投影到Q个第二子空间中的向量分别映射到Q个第三子空间中;利用非参数线性区分分析对Q个第三子空间进行分析建模;利用投影矩阵W2*W3,将每条训练语音和测试语音的JFA超向量分别投影到Q个第三子空间,得到Q个目标说话人参考向量和Q个测试参考向量;将Q个分类器的输出进行融合;将得分最高的融合结果对应的训练语音的说话人确认为测试语音的说话人。本发明很好地改进了说话人身份确认系统的系统性能。

    一种图像级JND阈值预测方法、装置、设备以及存储介质

    公开(公告)号:CN119743609A

    公开(公告)日:2025-04-01

    申请号:CN202411950991.X

    申请日:2024-12-27

    Abstract: 本申请公开了一种图像级JND阈值预测方法、装置、设备以及存储介质,所述方法包括:获取参考图像和失真图像,并根据人眼视觉机理因素计算所述参考图像的像素级JND图;根据所述参考图像、失真图像和像素级JND图构建视觉机理与数据联合驱动的JND训练样本对,并通过特征提取网络对所述JND训练样本进行中间层特征图提取;根据中间层特征图进行内容感知处理,再进行感知失真预测,得到感知失真预测标签序列集合;采用二分块的图像级JND阈值搜索策略对所述感知失真标签序列集合进行纠错处理,得到最终的图像级JND阈值预测结果。本申请实施例通过采用视觉机理辅助数据驱动的策略和二分块的JND搜索策略,提高了图像级JND阈值预测方法的精准度,增强了图像编码性能。

    基于机器学习预测的动态点云低复杂度编码方法及装置

    公开(公告)号:CN118368419A

    公开(公告)日:2024-07-19

    申请号:CN202410382665.7

    申请日:2024-04-01

    Abstract: 本申请涉及一种基于机器学习预测的动态点云低复杂度编码方法及装置。所述方法包括:对待编码的点云视频进行编码,并在编码过程中提取当前编码单元的二维编码特征和点云编码特征,构建用于机器学习预测的特征集;计算所述特征集中每个特征的重要度以及特征与特征之间的冗余度,根据所述重要度和冗余度对所述特征集进行筛选,得到筛选后的特征集;将所述筛选后的特征集输入包括多个分类器的SVM,所述SVM利用多个分类器预测当前编码单元是否提前终止编码操作。本申请实施例通过借鉴传统二维编码复杂度优化领域的经验,并深入分析V‑PCC点云编码的特性,具有更好的编码性能,且不受内部二维编码器种类的限制,具有较强的普适性。

    一种动态点云低复杂度编码方法、装置、设备及存储介质

    公开(公告)号:CN118368418A

    公开(公告)日:2024-07-19

    申请号:CN202410373024.5

    申请日:2024-03-29

    Abstract: 本申请涉及一种动态点云低复杂度编码方法、装置、设备以及存储介质。所述方法包括:在编码过程中提取当前编码单元的纹理信息,根据纹理信息计算当前编码单元的纹理复杂度;分别提取当前编码单元与相邻编码单元之间的空间关联性特征信息、父子关联性特征信息以及帧间帧内特征信息,并根据所述空间关联性特征信息、父子关联性特征信息和帧间帧内特征信息计算所述当前编码单元的自适应纹理阈值;将所述当前编码单元的纹理复杂度与自适应纹理阈值进行对比,根据对比结果判断所述当前编码单元的纹理类型,确定是否对当前编码单元的编码结果执行分区编码操作。本申请实施例既具有更好的编码性能,且不受内部二维编码器种类的限制,具有较强的普适性。

    一种点云颜色上采样方法及系统
    25.
    发明公开

    公开(公告)号:CN118351325A

    公开(公告)日:2024-07-16

    申请号:CN202410341147.0

    申请日:2024-03-25

    Inventor: 李娜 陈非凡 张云

    Abstract: 本申请公开了一种点云颜色上采样方法及系统,运用于点云处理技术领域,其方法包括:获取几何信息对稀疏颜色信息进行上采样,通过颜色上采样生成粗颜色集;基于所述几何信息与深度神经网络,提取高维颜色特征;采用局部距离差作为权重定位邻域点的特征,得到所述几何信息加权的局部重要颜色特征;基于所述高维颜色特征与所述局部重要颜色特征的融合,获取高维局部颜色特征;通过所述高维局部颜色特征对所述粗颜色集进行细化,得到细粒度颜色集;有效地实现了对点云颜色的上采样,提供了高质量的颜色信息。

    基于人类反馈强化学习的按压机器人随动控制方法和系统

    公开(公告)号:CN118340549A

    公开(公告)日:2024-07-16

    申请号:CN202410334788.3

    申请日:2024-03-22

    Abstract: 本发明公开了一种基于人类反馈强化学习的按压机器人随动控制方法和系统。该方法包括:在机器人按压目标对象过程中,检测机器人按压末端的压力分布信号,并检测目标对象的脉搏波信号;将所述压力分布信号和所述脉搏波信号作为状态输入到经训练的强化学习模型,得到当前状态应该采取的随动控制信号;将所述随动控制信号传入导纳控制和PID控制器,获得机器人关节控制指令,进而通过机器人控制系统执行相应的机器人关节控制指令,以改变机器人按压方向和按压力度。利用本发明,机器人不仅能够顺应外力,还能够精确地控制位置,并且结合人体脉搏波信号进行随动控制可以适应不同个体。

    一种数据驱动的级联视频编码方法

    公开(公告)号:CN107690069B

    公开(公告)日:2021-01-01

    申请号:CN201710751982.1

    申请日:2017-08-28

    Abstract: 本发明涉及一种数据驱动的级联视频编码方法,通过编码模式决策器的级联,以及编码模式决策数据,提高单级编码单元模式决策器的决策准确度和编码效率的控制,有效降低视频编码的编码复杂度。将多个单级编码单元模式决策器级联,有效进一步减少单一编码单元模式决策器决策过程中的分类不确定性问题;因此,有效提高编码单元模式决策准确性,降低了高效视频编码的计算复杂度的同时,提高了高效视频编码的有效性。

    一种说话人识别方法和装置

    公开(公告)号:CN104167208A

    公开(公告)日:2014-11-26

    申请号:CN201410389619.6

    申请日:2014-08-08

    Inventor: 李志锋 李娜 乔宇

    Abstract: 本发明适用于说话人识别领域,提供了一种说话人识别方法和装置,该方法包括:提取JFA说话人超向量,所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量;对所提取的JFA说话人超向量进行分段,将JFA说话人超向量划分为多个子向量集;根据分段所得到的多个子向量集,对每个子向量集进行非参数区分分析,建立子空间说话人模型;根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量进行说话人识别。和现有技术相比,本发明运算量小;而且测试数据收集简单,提高识别性能。

    基于残差编码的视频二次压缩方法、装置及网络设备

    公开(公告)号:CN119743626A

    公开(公告)日:2025-04-01

    申请号:CN202411872807.4

    申请日:2024-12-18

    Abstract: 本申请实施例提供了一种基于残差编码的视频二次压缩方法、装置及网络设备,所述方法包括:获取第一视频,并对第一视频进行有损压缩,得到第二视频;确定第一视频和第二视频的残差数据;并基于残差数据确定残差特征和残差特征的上下文特征;将残差特征和残差特征的上下文数据输入到熵模型中,确定概率质量函数,以采取算数编码的方式对残差数据进行处理,确定重构残差;将第二视频的码流和重构残差的码流进行合并,并发送合并码流;本方案可以分析原视频与压缩后的视频的残差,然后对残差进行编码压缩,后续通过恢复残差,并依据残差和压缩后的视频来还原视频,以提升视频质量。

    基于张量分解和可训练掩码的视频压缩方法及装置

    公开(公告)号:CN119743613A

    公开(公告)日:2025-04-01

    申请号:CN202411869923.0

    申请日:2024-12-18

    Abstract: 本申请实施例提供了一种基于张量分解和可训练掩码的视频压缩方法及装置,可以应用在发送端,所述方法包括:获取视频数据,并依据视频数据生成视频张量,视频张量包括视频数据的视频帧的像素点的坐标数据和像素特征;依据坐标数据,生成三种张量平面和对应的平面向量,并依据像素特征,确定各张量平面的平面参数和张量平面对应的平面向量的向量参数,形成分解数据;依据分解数据,确定张量平面对应的掩码平面,并依据掩码平面对张量平面的平面参数进行压缩,得到压缩平面;依据压缩平面和平面向量,确定传输数据,并发送给接收端;本方案可以对视频进行压缩后传输,以减少对资源的占用。

Patent Agency Ranking