-
公开(公告)号:CN114365121A
公开(公告)日:2022-04-15
申请号:CN202080063045.7
申请日:2020-07-22
Applicant: 三菱电机株式会社
IPC: G06F16/332
Abstract: 提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器‑解码器,第一多模式编码器‑解码器具有第一输入端和第一输出端,其中,已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器;布置用于对话响应生成的第二多模式编码器‑解码器,第二多模式编码器‑解码器具有第二输入端和第二输出端;向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下,第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。
-
公开(公告)号:CN117597708A
公开(公告)日:2024-02-23
申请号:CN202280043057.2
申请日:2022-05-10
Applicant: 三菱电机株式会社
IPC: G06V20/40
Abstract: 提供了一种场景字幕系统。该场景字幕系统包括:接口,其被配置为获取包括帧和声音数据的场景数据信号的流;存储器,其存储包括场景编码器、定时解码器、定时检测器和字幕解码器的计算机可执行场景字幕模型,其中,视听编码器由定时解码器和定时检测器和字幕解码器共享;以及处理器,其与存储器连接。处理器被配置为执行以下步骤:利用视听编码器从场景数据信号提取场景特征;利用定时检测器确定生成字幕的定时,其中,该定时布置在场景数据信号的流的早期阶段;以及根据该定时通过使用字幕解码器基于场景特征生成字幕。
-
公开(公告)号:CN108292305B
公开(公告)日:2021-10-26
申请号:CN201680069394.3
申请日:2016-11-29
Applicant: 三菱电机株式会社
Abstract: 方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,以提供针对语句的标引的概率。
-
公开(公告)号:CN110168531A
公开(公告)日:2019-08-23
申请号:CN201780079516.1
申请日:2017-12-25
Applicant: 三菱电机株式会社
IPC: G06F16/783 , G06N3/04 , H04N21/2343 , H04N21/439 , H04N21/8549 , G10L25/30 , G10L25/57
Abstract: 一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。
-
-
-