-
公开(公告)号:CN113239886B
公开(公告)日:2024-03-19
申请号:CN202110626949.2
申请日:2021-06-04
Applicant: 合肥工业大学智能制造技术研究院 , 合肥工业大学
IPC: G06V20/40 , G06V20/52 , G06V20/70 , G06V10/774 , G06V10/82 , G06N3/044 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置,所述方法包括:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;构建基于双重动态注意力机制的跨语言图像变化描述模型;将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果;本发明的优点在于:井下管道泄漏描述较为准确。
-
公开(公告)号:CN113239886A
公开(公告)日:2021-08-10
申请号:CN202110626949.2
申请日:2021-06-04
Applicant: 合肥工业大学智能制造技术研究院 , 合肥工业大学
Abstract: 本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置,所述方法包括:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;构建基于双重动态注意力机制的跨语言图像变化描述模型;将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果;本发明的优点在于:井下管道泄漏描述较为准确。
-
公开(公告)号:CN113128415B
公开(公告)日:2023-09-29
申请号:CN202110437611.2
申请日:2021-04-22
Applicant: 合肥工业大学
Abstract: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
-
公开(公告)号:CN113205507A
公开(公告)日:2021-08-03
申请号:CN202110540093.7
申请日:2021-05-18
Applicant: 合肥工业大学
IPC: G06T7/00 , G06T7/11 , G06F16/332 , G06F16/58 , G06F16/583 , G06F16/78 , G06F16/783 , G06F16/215 , G06Q50/06 , G07C1/20
Abstract: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。
-
公开(公告)号:CN113129862A
公开(公告)日:2021-07-16
申请号:CN202110436317.X
申请日:2021-04-22
Applicant: 合肥工业大学
Abstract: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。
-
公开(公告)号:CN108398637B
公开(公告)日:2020-04-21
申请号:CN201810083967.9
申请日:2018-01-29
Applicant: 合肥工业大学
IPC: G01R31/34
Abstract: 本发明涉及一种非线性机电系统的故障诊断方法,特别涉及一种非线性机电系统的故障诊断方法。本发明首先对非线性机电系统建模,得到非线性机电系统的键合图模型,再依次得到解析冗余关系、故障特征矩阵,分析非线性机电系统故障的可检测性和可隔离性,得出非线性机电系统可能发生故障的集合,最后通过粒子滤波方法对非线性机电系统可能发生故障的集合和非线性机电系统的状态变量进行联合参数估计,然后将粒子分布的样本均值作为参数估计值和模型的标称值对比,确定非线性机电系统的故障。本发明能够通过故障辨识将故障参数精确到小范围区间内,能够及时、准确地诊断并隔离出故障源。
-
公开(公告)号:CN113128415A
公开(公告)日:2021-07-16
申请号:CN202110437611.2
申请日:2021-04-22
Applicant: 合肥工业大学
Abstract: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。
-
公开(公告)号:CN111914710A
公开(公告)日:2020-11-10
申请号:CN202010720114.9
申请日:2020-07-24
Applicant: 合肥工业大学
Abstract: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。
-
公开(公告)号:CN113129862B
公开(公告)日:2024-03-12
申请号:CN202110436317.X
申请日:2021-04-22
Applicant: 合肥工业大学
Abstract: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。
-
公开(公告)号:CN113205507B
公开(公告)日:2023-03-10
申请号:CN202110540093.7
申请日:2021-05-18
Applicant: 合肥工业大学
IPC: G06T7/00 , G06T7/11 , G06F16/332 , G06F16/58 , G06F16/583 , G06F16/78 , G06F16/783 , G06F16/215 , G06Q50/06 , G07C1/20
Abstract: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。
-
-
-
-
-
-
-
-
-