-
公开(公告)号:CN111858882B
公开(公告)日:2022-08-09
申请号:CN202010584144.1
申请日:2020-06-24
IPC: G06F16/583 , G06F16/532 , G06F16/332 , G06V30/19 , G06V10/82 , G06V20/62 , G06V30/416 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于概念交互和关联语义的文本视觉问答系统及方法,包括物体位置提取模块、第一全连接层、文本信息提取模块、第二全连接层、OCR‑object图卷积网络、多门步机制图卷积网络、转换器网络以及双向转换器表征编码器BERT。本申请利用图像中物体和文本信息的位置关系建模,之后通过OCR‑object图卷积网络对文本信息和物体信息建模,通过门机制对关系的编码学习到丰富且具有指向性的特征,最后通过转换器网络对图像当中的物体和文本进行精准关注,从而得到更加准确的答案。
-
公开(公告)号:CN113435399A
公开(公告)日:2021-09-24
申请号:CN202110793167.8
申请日:2021-07-14
Applicant: 电子科技大学
IPC: G06K9/00 , G06F40/30 , G06F16/332 , G06F16/432 , G06F16/48 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多层次排序学习的多轮视觉对话方法,提出了上下文控制门机制,自适应地赋予对话历史信息权重以回答当前的问题,避免了盲目使用对话历史信息造成的冗余信息。同时本发明设计了多层次排序学习模块,将所有选项划分为3个层次,提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名,从而提升了模型的泛化能力。
-
公开(公告)号:CN111858882A
公开(公告)日:2020-10-30
申请号:CN202010584144.1
申请日:2020-06-24
IPC: G06F16/332 , G06F16/583 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于概念交互和关联语义的文本视觉问答系统及方法,包括物体位置提取模块、第一全连接层、文本信息提取模块、第二全连接层、OCR-object图卷积网络、多门步机制图卷积网络、转换器网络以及双向转换器表征编码器BERT。本申请利用图像中物体和文本信息的位置关系建模,之后通过OCR-object图卷积网络对文本信息和物体信息建模,通过门机制对关系的编码学习到丰富且具有指向性的特征,最后通过转换器网络对图像当中的物体和文本进行精准关注,从而得到更加准确的答案。
-
公开(公告)号:CN113435399B
公开(公告)日:2022-04-15
申请号:CN202110793167.8
申请日:2021-07-14
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/82 , G06F40/30 , G06F16/332 , G06F16/432 , G06F16/48 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多层次排序学习的多轮视觉对话方法,提出了上下文控制门机制,自适应地赋予对话历史信息权重以回答当前的问题,避免了盲目使用对话历史信息造成的冗余信息。同时本发明设计了多层次排序学习模块,将所有选项划分为3个层次,提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名,从而提升了模型的泛化能力。
-
-
-