-
公开(公告)号:CN118451476A
公开(公告)日:2024-08-06
申请号:CN202280080765.3
申请日:2022-10-27
Applicant: 三菱电机株式会社
IPC: G06V10/426 , G06V10/62 , G06V10/82 , G06V20/40 , G06N3/0464 , H04N19/172
Abstract: 本公开的实施方式公开了一种场景感知视频编码器系统。该场景感知视频编码器系统将场景的视频的视频帧序列变换成时空场景图。该时空场景图包括表示场景中的一个或多个静态和动态对象的节点。时空场景图的各个节点皆描述在不同时间实例所述对象(静态对象和动态对象)中的各个对象的外观、位置和/或运动。使用时空变换器将时空场景图的节点嵌入到潜在空间中,该时空变换器对时空场景图的不同节点的与场景的不同时空体积对应的不同组合进行编码。利用注意力得分来对在所述组合中的各个组合中编码的所述不同节点中的各个节点进行加权,该注意力得分是根据该组合中的不同节点的时空位置的相似性来确定的。
-
公开(公告)号:CN117043817A
公开(公告)日:2023-11-10
申请号:CN202280022980.8
申请日:2022-02-10
Applicant: 三菱电机株式会社
Inventor: A·谢里安 , G·J·迪亚斯·派斯 , T·马克斯 , 阿兰·苏利文
IPC: G06T7/11
Abstract: 用于从真实深度图像生成逼真图像的系统和方法。通过访问具有与真实深度图像的实例相同的实例的测试深度图像来训练生成对抗神经网络(GAN)。将测试深度图像输入生成器中,以生成表示物体的隐式三维模型的估计深度图像。将各个估计深度图像输入到鉴别器中以获得损失,并且输入到姿势编码器中以获得匹配损失。迭代地重复过程,直到损失被最小化至阈值,以结束训练。使用经训练的GAN姿势编码器来标识真实图像中的实例,以生成真实图像中的各个实例的姿势变换矩阵。标识深度图像中的与真实图像的实例相对应的像素,并且合并深度图像的所述像素,以形成真实深度图像的实例分割映射。
-
公开(公告)号:CN114365121B
公开(公告)日:2025-02-14
申请号:CN202080063045.7
申请日:2020-07-22
Applicant: 三菱电机株式会社
IPC: G06F16/3329 , G10L25/30 , H04N21/8549 , H04N21/439 , G06N3/006 , G06F3/16 , G06N5/04 , G06N3/08 , G06N3/04
Abstract: 提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器‑解码器,第一多模式编码器‑解码器具有第一输入端和第一输出端,其中,已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器;布置用于对话响应生成的第二多模式编码器‑解码器,第二多模式编码器‑解码器具有第二输入端和第二输出端;向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下,第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。
-
公开(公告)号:CN116348924A
公开(公告)日:2023-06-27
申请号:CN202180071862.1
申请日:2021-07-12
Applicant: 三菱电机株式会社
IPC: G06V40/20 , G06V10/764 , G06V10/774 , G06V10/82 , G06V10/46 , G06V10/762
Abstract: 本公开的实施方式公开了一种用于检测执行活动的人的姿态序列中的异常的异常检测器。该异常检测器包括:输入接口,其被配置为接受指示姿态序列的分布的输入数据;存储器,其被配置为存储具有在再生核希尔伯特空间(RKHS)中界定姿态序列的正态分布的一对互补分类器的判别单类分类器;处理器,其被配置为将输入数据嵌入到RKHS的元素中并且使用判别单类分类器对嵌入数据进行分类;以及输出接口,其被配置为渲染分类结果。
-
公开(公告)号:CN117678017A
公开(公告)日:2024-03-08
申请号:CN202280049225.9
申请日:2022-04-22
Applicant: 三菱电机株式会社
IPC: G10L25/57 , G06F16/901 , G06N3/045 , G06N3/0985 , G10L25/30
Abstract: 实施方式公开了一种用于场景的场景‑感知音频‑视频表示的方法和系统。场景‑感知音频‑视频表示对应于通过边连接的节点的图。图中的节点表示场景中的对象的视频特征。图中的连接两个节点的边表示场景中的相应两个对象的交互。在图中,至少一个或更多个边与由相应两个对象的交互发出的声音的音频特征相关联。场景的音频‑视频表示的图可以被用于执行各种不同任务。任务的示例包括动作识别、异常检测、声音定位和增强、噪声背景音去除和系统控制中的一者或组合。
-
公开(公告)号:CN117597708A
公开(公告)日:2024-02-23
申请号:CN202280043057.2
申请日:2022-05-10
Applicant: 三菱电机株式会社
IPC: G06V20/40
Abstract: 提供了一种场景字幕系统。该场景字幕系统包括:接口,其被配置为获取包括帧和声音数据的场景数据信号的流;存储器,其存储包括场景编码器、定时解码器、定时检测器和字幕解码器的计算机可执行场景字幕模型,其中,视听编码器由定时解码器和定时检测器和字幕解码器共享;以及处理器,其与存储器连接。处理器被配置为执行以下步骤:利用视听编码器从场景数据信号提取场景特征;利用定时检测器确定生成字幕的定时,其中,该定时布置在场景数据信号的流的早期阶段;以及根据该定时通过使用字幕解码器基于场景特征生成字幕。
-
公开(公告)号:CN119631083A
公开(公告)日:2025-03-14
申请号:CN202380057515.2
申请日:2023-06-16
Applicant: 三菱电机株式会社
IPC: G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/096
Abstract: 提供一种人工智能(AI)低延迟处理系统。该低延迟处理系统包括:处理器;以及存储有指令的存储器。该低延迟处理系统被配置为:收集帧序列,所述帧序列联合包括分散在所述帧序列中至少一些帧中的信息;执行定时神经网络,该定时神经网络被训练以识别所述帧序列中的包括指示所述信息的至少部分信息的早期帧子序列;并且执行解码神经网络,该解码神经网络经训练以从帧子序列中的部分信息解码所述信息,其中,所述定时神经网络与所述解码神经网络被联合训练,以迭代地识别从训练帧序列的起始处开始的包含足以解码训练信息的部分训练信息的最小数量的子帧。
-
公开(公告)号:CN118696344A
公开(公告)日:2024-09-24
申请号:CN202380022088.4
申请日:2023-02-03
Applicant: 三菱电机株式会社
IPC: G06T7/11
Abstract: 提供了一种用于从包括要由机器人操纵的对象的深度图像分割实例的成像控制器。该成像控制器包括:输入接口,其被配置为接收包括对象的深度图像;存储器,其被配置为存储指令和神经网络,该神经网络被训练为从深度图像中的对象分割实例;以及处理器,其与存储器联接,其被配置为执行指令以使用经训练的神经网络分割可拾取实例。所述指令包括以下步骤:选择深度图像中的最高点;使用形状来限定区域,使得该区域围绕最高点;对深度图像的区域中的点进行采样;计算最高点与采样点之间的深度测地线;将深度测地线提交给神经网络以在深度图像中的对象的实例中分割可拾取实例;以及输出接口,其被配置为将可拾取实例的几何特征输出到机器人的操纵器控制器。
-
公开(公告)号:CN115039141A
公开(公告)日:2022-09-09
申请号:CN202080095329.4
申请日:2020-12-15
Applicant: 三菱电机株式会社
Abstract: 场景感知对话系统包括用于接收视频帧序列、背景信息和询问的输入接口以及存储器,该存储器被配置为存储被训练为通过分析输入视频帧序列和输入背景信息中的一者或组合来生成对输入询问的答复的神经网络。该系统还包括处理器,该处理器被配置为对视频帧序列中的每个视频帧中的对象进行检测和分类;确定每个视频帧中的分类对象之间的关系;为每个视频帧提取表示分类对象和确定的关系的特征,以生成特征向量序列;并且将特征向量序列、输入询问和输入背景信息提交给神经网络,以生成对输入询问的答复。
-
公开(公告)号:CN115038936A
公开(公告)日:2022-09-09
申请号:CN202080095350.4
申请日:2020-12-17
Applicant: 三菱电机株式会社
IPC: G01C21/36
Abstract: 提供了一种导航系统,其被配置为基于场景中的与驾驶车辆相关的对象的实时描述向移动的车辆的驾驶员提供驾驶指令。导航系统包括:输入接口,其被配置为接受用于驾驶车辆的路线、在当前时刻车辆在路线上的状态、以及在当前时刻与车辆的路线相关的显著对象的集合的动态地图,其中,至少一个显著对象是由在当前时刻的当前位置和在未来时刻的未来位置之间的路线上移动的车辆的测量系统感知的对象,其中,显著对象的集合包括一个或更多个静态对象和一个或更多个动态对象;处理器,其被配置为基于从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令;以及输出接口,其配置为向车辆的驾驶员呈现驾驶指令。
-
-
-
-
-
-
-
-
-