一种环境辨别方法、系统、设备及存储介质

    公开(公告)号:CN113128415B

    公开(公告)日:2023-09-29

    申请号:CN202110437611.2

    申请日:2021-04-22

    Abstract: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。

    一种视觉问答方法、系统及服务器

    公开(公告)号:CN113205507A

    公开(公告)日:2021-08-03

    申请号:CN202110540093.7

    申请日:2021-05-18

    Abstract: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。

    一种基于world-tacotron的语音合成方法、系统及服务器

    公开(公告)号:CN113129862A

    公开(公告)日:2021-07-16

    申请号:CN202110436317.X

    申请日:2021-04-22

    Abstract: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。

    一种非线性机电系统的故障诊断方法

    公开(公告)号:CN108398637B

    公开(公告)日:2020-04-21

    申请号:CN201810083967.9

    申请日:2018-01-29

    Abstract: 本发明涉及一种非线性机电系统的故障诊断方法,特别涉及一种非线性机电系统的故障诊断方法。本发明首先对非线性机电系统建模,得到非线性机电系统的键合图模型,再依次得到解析冗余关系、故障特征矩阵,分析非线性机电系统故障的可检测性和可隔离性,得出非线性机电系统可能发生故障的集合,最后通过粒子滤波方法对非线性机电系统可能发生故障的集合和非线性机电系统的状态变量进行联合参数估计,然后将粒子分布的样本均值作为参数估计值和模型的标称值对比,确定非线性机电系统的故障。本发明能够通过故障辨识将故障参数精确到小范围区间内,能够及时、准确地诊断并隔离出故障源。

    一种环境辨别方法、系统、设备及存储介质

    公开(公告)号:CN113128415A

    公开(公告)日:2021-07-16

    申请号:CN202110437611.2

    申请日:2021-04-22

    Abstract: 本发明提供了一种环境辨别方法、系统、设备及存储介质,涉及视频问答技术领域,环境辨别方法包括:在采集到环境问题时,实时采集一预设时长的环境视频;根据环境视频中每一帧的环境图像,得到环境图像特征,并提取环境问题的语义特征,得到问题文本特征;将环境图像特征和问题文本特征进行加权融合,得到融合特征;将融合特征输入环境辨别模型,环境辨别模型根据融合特征,采用对应的激活函数和损失函数,得到预测答案。本发明能够在盲人提出问题时,及时的进行环境的辨别和反馈,使得具有视觉障碍的人群能感知到环境信息;且在交互技术中应用了视频问答技术,使得环境辨别的准确度大大提高,输出的辨别结果与实际情况更符合。

    一种铁路机务段场景描述方法及系统

    公开(公告)号:CN111914710A

    公开(公告)日:2020-11-10

    申请号:CN202010720114.9

    申请日:2020-07-24

    Abstract: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。

    一种基于world-tacotron的语音合成方法、系统及服务器

    公开(公告)号:CN113129862B

    公开(公告)日:2024-03-12

    申请号:CN202110436317.X

    申请日:2021-04-22

    Abstract: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。

    一种视觉问答方法、系统及服务器

    公开(公告)号:CN113205507B

    公开(公告)日:2023-03-10

    申请号:CN202110540093.7

    申请日:2021-05-18

    Abstract: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。

Patent Agency Ranking