-
公开(公告)号:CN115440251B
公开(公告)日:2024-12-20
申请号:CN202211062049.0
申请日:2022-09-01
Applicant: 有米科技股份有限公司
IPC: G10L25/57 , G10L25/51 , G10L25/27 , G10L25/30 , H04N21/439 , H04N21/44 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种图像辅助音频补全的音频重构方法及装置,该方法包括:根据视频预处理方案对待处理视频执行预处理操作,得到音频、图像数据,音频数据为经过空白音频去除、采样率转换及特征提取操作中的至少一种操作后得到的数据;根据音频重构模型对音频数据执行一级重构操作,得到待融合向量;对待融合向量以及图像数据的维度向量执行二级重构操作,得到二级重构结果,二级重构结果用于确定音频重构模型的音频损失参数,当判断出音频损失参数表示音频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对音频重构模型的训练任务。可见,实施本发明能够基于图像实现音频重构,提高音频重构的准确性并提高重构音频与视频内容的匹配度。
-
公开(公告)号:CN114357969B
公开(公告)日:2024-11-26
申请号:CN202111572546.0
申请日:2021-12-21
Applicant: 有米科技股份有限公司
IPC: G06F40/205 , G06F40/284 , G06F16/36
Abstract: 本发明公开了一种基于图注意网络的数据处理方法及装置,该方法包括:检测是否接收到文本生成请求,得到检测结果;文本生成请求包括若干个输入词;当检测结果为是时,利用预设的信息关联模型对文本生成请求进行处理,得到属性词信息;属性词信息包括L个属性词子信息;L为大于等于1的正整数;信息关联模型包括基于图注意网络的第一信息关联模型,和/或,第二信息关联模型;对属性词信息进行排序筛选处理,得到目标文本词信息;目标文本词信息包括若干个目标文本词;目标文本词用于生成营销文本。可见,本发明有利于提高相关联词的信息输出量,从而满足不同长度的营销文本生成需要。
-
公开(公告)号:CN112766052B
公开(公告)日:2024-10-15
申请号:CN202011600857.9
申请日:2020-12-29
Applicant: 有米科技股份有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/262 , G06F40/30 , G06V10/82 , G06N3/044 , G06N3/0464
Abstract: 本发明公开了一种基于CTC的图像文字识别方法及装置,包括:基于训练好的文字识别模型识别目标图像中的文字,得到目标图像对应的原文字集合,该原文字集合包括从目标图像中识别出的至少一个原文字;将每个原文字转换成对应的向量,并将所有原文字对应的向量输入预先训练好的语义纠正模型,得到每个原文字对应的预测文字;将所有原文字对应的预测文字确定为目标图像的文字识别结果;其中,该文字识别模型为基于连接时序分类CTC的文字识别模型。可见,本发明能够基于文字识别模型与语义纠正模型的组合实现对图像文字的识别,在识别图像文字的同时实现了对识别到的图像文字的语义纠错,有利于提高对图像文字的识别准确率。
-
公开(公告)号:CN112766051B
公开(公告)日:2024-09-06
申请号:CN202011600823.X
申请日:2020-12-29
Applicant: 有米科技股份有限公司
IPC: G06V30/413 , G06V30/262 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于Attention的图像文字识别方法及装置,该方法包括:基于训练好的文字识别模型识别目标图像中的文字,得到该目标图像对应的原文字集合,该原文字集合包括从目标图像中识别出的至少一个原文字;将每个原文字转换成对应的向量,并将所有原文字对应的向量输入预先训练好的语义纠正模型,得到每个原文字对应的预测文字;将所有原文字对应的预测文字确定为目标图像的文字识别结果;其中,文字识别模型为基于Attention的文字识别模型。可见,本发明能够基于文字识别模型与语义纠正模型的组合实现对图像文字的识别,在识别图像文字的同时实现了对识别到的图像文字的语义纠错,有利于提高对图像文字的识别准确率。
-
公开(公告)号:CN112115945B
公开(公告)日:2024-06-14
申请号:CN202011022711.0
申请日:2020-09-25
Applicant: 有米科技股份有限公司
Abstract: 本发明提供一种动静态字幕的提取方法及装置,利用边缘提取算法对读取到的第一视频帧进行处理,得到帧二值边缘图;基于直线检测算法和直线过滤方式检测所述帧二值边缘图中的竖直直线和水平直线并过滤,得到确定直线的第二视频帧并进行分割,得到多个画面;计算每一画面对应的画面区域改变率,得到所有画面对应的画面区域改变率;基于所有画面所对应的画面区域改变率,确定第二视频帧中所包含的动态画面和静态画面;针对动态画面和静态画面采用大小不同的采用率进行采样后,进行OCR处理和去重处理,得到各自对应的动态字幕和静态字幕。由此,实现准确快速有效的提取出广告视频中的动态字幕和静态字幕的目的。
-
公开(公告)号:CN112508594B
公开(公告)日:2024-04-09
申请号:CN202011088906.5
申请日:2020-10-13
Applicant: 有米科技股份有限公司
IPC: G06Q30/0201 , G06Q30/0242 , G06Q30/0251 , G06Q30/0241 , G06Q30/0601
Abstract: 本发明实施例中公开了一种带货视频的商品销量属性估算方法,该方法确定目标时间段内用于带货销售第一目标商品的所有带货视频中每个所述带货视频对应的销量价值系数;获取所述第一目标商品在所述目标时间段内的商品销量数据;根据所述第一目标商品在所述目标时间段内的商品销量数据以及每个所述带货视频对应的销量价值系数,确定每个所述带货视频在所述目标时间段内对所述第一目标商品的销量属性。可见,本发明能够提供一种商品销量属性的确定方式,以便准确、快速地确定出用于带货销售商品的每个带货视频对商品的销量属性,进而能够为确定每个带货视频对商品的销售贡献情况和/或每个带货视频的视频博主的带货能力提供客观、准确的参考依据。
-
公开(公告)号:CN113836305B
公开(公告)日:2024-03-22
申请号:CN202111150329.2
申请日:2021-09-29
Applicant: 有米科技股份有限公司
Abstract: 本发明公开了一种基于文本的行业类别识别方法及装置,通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。
-
公开(公告)号:CN111652219B
公开(公告)日:2023-08-04
申请号:CN202010497450.1
申请日:2020-06-03
Applicant: 有米科技股份有限公司
IPC: G06V30/19 , G06V30/146
Abstract: 本发明提供一种图文标识检测识别方法、装置、服务器及存储介质,确定待进行图文标识检测识别的图像;将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域;根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果;利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果;基于第一图文标识区域、第一识别结果、第二图文标识区域和第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。本发明能够提高网络识别效果和降低网络训练消耗。
-
公开(公告)号:CN109766550B
公开(公告)日:2023-05-23
申请号:CN201910011497.X
申请日:2019-01-07
Applicant: 有米科技股份有限公司
IPC: G06F40/279 , G06F40/30
Abstract: 本发明提供了一种文本品牌识别方法、识别装置和存储介质,该方法包括:获取待识别的文本,并对文本进行预处理得到文本的品牌候选词根;获取预构建的品牌库中的品牌名和品牌描述信息,并对品牌描述信息进行预处理得到品牌描述特征词汇;获取品牌候选词根在文本中的上下文特征词汇;基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度,并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名。基于本发明,可以在无监督的场景下,利用语义相似度确定文本的目标品牌名,这在一定程度上可以解决一词多义的问题,有助于文本品牌的自动识别。
-
公开(公告)号:CN116127920A
公开(公告)日:2023-05-16
申请号:CN202211683113.7
申请日:2022-12-27
Applicant: 有米科技股份有限公司
IPC: G06F40/126 , G06F18/214
Abstract: 本发明公开了一种信息提取模型的训练方法及装置,该方法包括:获取标注后的文本数据,并将文本数据输入至预训练信息提取模型中,得到文本编码结果并输入至预设数量的第一全连接层中,得到头实体位置向量;分析头实体位置向量以及文本编码结果,得到目标文本向量,并将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系;基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。可见,实施本发明能够有利于提高信息提取模型训练的准确性和效率,以及有利于提高通过训练所得的信息提取模型进行信息提取的准确性。
-
-
-
-
-
-
-
-
-