-
公开(公告)号:CN113392210B
公开(公告)日:2025-03-14
申请号:CN202011381206.5
申请日:2020-11-30
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及计算机领域,特别涉及人工智能技术领域,公开了一种文本分类方法、装置、电子设备及存储介质,该方法包括:获取待识别的文本信息,将所述文本信息输入到已训练的第一文本分类模型中,得到目标词向量矩阵;再对各个目标词向量进行语义挖掘处理得到对应的语义特征,最后基于各个语义特征得到目标预测分类结果;而第一文本分类模型是基于第一损失值和第二损失值进行参数调整后得到的,第一损失值为预测分类结果与实际分类结果之间的误差值,第二损失值为两次预测分类结果之间的误差值。使用两种损失值调整第一文本分类模型的参数,让第一文本分类模型的预测分类结果趋近于实际分类结果和另一个预测分类结果,进一步提高模型的分类准确率。
-
公开(公告)号:CN110580288B
公开(公告)日:2022-09-09
申请号:CN201910782674.4
申请日:2019-08-23
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种基于人工智能的文本分类方法和装置,该文本分类方法包括:获取待分类文本;将待分类文本转化为第一词向量序列;将待分类文本转化为字向量序列;基于字向量序列和第一词向量序列进行文本分类,得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类,进行文本分类时即考虑了字维度的信息也考虑了词维度的信息,提高了文本分类的准确率和召回率。
-
公开(公告)号:CN111597306B
公开(公告)日:2021-12-07
申请号:CN202010421217.5
申请日:2020-05-18
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/33 , G06F40/284
Abstract: 本发明公开了一种语句识别方法和装置、存储介质及电子设备。其中,该方法包括:获取待识别的语句数据,将语句数据执行分词操作,得到词表数据,将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果,上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型,样本语句集合中包括第一样本语句集合和第二样本语句集合,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源。本发明解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
-
公开(公告)号:CN113569043A
公开(公告)日:2021-10-29
申请号:CN202110112234.5
申请日:2021-01-27
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F40/289 , G06N3/04
Abstract: 本申请实施例公开了一种文本类别确定方法,所述方法包括:获取包括来自N个文本领域的文本样本的第一样本集中的目标样本,目标样本标注有实际文本类别;根据目标样本确定出初始类别分类模型的输入数据,通过初始类别分类模型输出对应目标样本的N个类别识别结果,初始类别分类模型包括与N个文本领域一一对应的N个类别识别模块;确定目标样本分别与N个文本领域间的关联概率;根据关联概率、类别识别结果和实际文本类别确定分别对应N个类别识别模块的损失函数;根据损失函数对初始类别分类模型进行训练,从而使最终得到的类别分类模型在学习到各个领域本身的特点之外,还能够融合不同领域之间的相关知识,一定程度上提高了文本分类的准确度。
-
公开(公告)号:CN109918653B
公开(公告)日:2020-08-18
申请号:CN201910129251.2
申请日:2019-02-21
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/258 , G06F40/279 , G06F40/194
Abstract: 本发明公开了一种确定文本数据的关联话题及模型的训练方法、装置和设备,属于计算机技术领域,用于提升文本数据与话题关联的准确度。该方法包括:获取待关联文本数据;提取待关联文本数据的描述特征;采用预先训练的匹配度确定模型,分别确定待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度,其中:匹配度确定模型是采用多个训练样本训练得到的,每个训练样本包括一条文本数据和至少一个话题,且采用人工标注方式进行了文本数据和话题的关联度的标注处理;每一个话题的描述特征,是从训练样本中与该话题关联的文本数据中提取的;将匹配度满足第一设定条件的话题,确定为与待关联文本数据关联的话题。
-
公开(公告)号:CN107025037B
公开(公告)日:2020-06-02
申请号:CN201610072698.7
申请日:2016-02-02
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F3/0482 , G06F9/451
Abstract: 本发明公开了一种智能设备的控制方法及装置,其中该方法包括:获取智能设备的基础信息,并根据智能设备的基础信息,控制智能设备连接至物联网;在智能设备连接至物联网的状态下,获取与该智能设备相应的预设功能配置信息,从而确定相应的控制器控件,然后,基于确定的控制器控件生成智能设备相应的控制器模板,最后通过控制器模板对智能设备进行控制;即本发明实施例仅基于智能设备相应的功能配置信息,自动统一生成控制器模板,从而完成智能设备与控制器模板的数据互通,即保证了控制器及测试体系的统一,还提高多设备操控的兼容性。
-
公开(公告)号:CN110580288A
公开(公告)日:2019-12-17
申请号:CN201910782674.4
申请日:2019-08-23
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种基于人工智能的文本分类方法和装置,该文本分类方法包括:获取待分类文本;将待分类文本转化为第一词向量序列;将待分类文本转化为字向量序列;基于字向量序列和第一词向量序列进行文本分类,得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类,进行文本分类时即考虑了字维度的信息也考虑了词维度的信息,提高了文本分类的准确率和召回率。
-
公开(公告)号:CN110569359A
公开(公告)日:2019-12-13
申请号:CN201910791312.1
申请日:2019-08-26
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35
Abstract: 本申请公开了一种识别模型的训练及应用方法、装置、计算设备及存储介质。该模型训练方法包括:获取不同来源的文本数据,其中,不同来源的文本数据中包括第一类文本数据和第二类文本数据,所述第一类文本数据具有来源标签,所述第二类文本数据具有预定属性标签,所述预定属性不包括文本来源;基于同一特征提取网络提取所述文本数据的特征数据;基于第一类文本数据的特征数据训练第一分类器,并基于第二类文本数据的特征数据训练第二分类器,其中所述第一分类器用于确定文本数据的来源,所述第二分类器用于确定文本数据的预定属性。由此,使得所训练的识别模型(机器学习模型)能够针对不同来源的数据间快速迁移并应用,从而节约成本并节省人力。
-
公开(公告)号:CN109918653A
公开(公告)日:2019-06-21
申请号:CN201910129251.2
申请日:2019-02-21
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种确定文本数据的关联话题及模型的训练方法、装置和设备,属于计算机技术领域,用于提升文本数据与话题关联的准确度。该方法包括:获取待关联文本数据;提取待关联文本数据的描述特征;采用预先训练的匹配度确定模型,分别确定待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度,其中:匹配度确定模型是采用多个训练样本训练得到的,每个训练样本包括一条文本数据和至少一个话题,且采用人工标注方式进行了文本数据和话题的关联度的标注处理;每一个话题的描述特征,是从训练样本中与该话题关联的文本数据中提取的;将匹配度满足第一设定条件的话题,确定为与待关联文本数据关联的话题。
-
公开(公告)号:CN101246501B
公开(公告)日:2010-06-23
申请号:CN200810088055.7
申请日:2008-03-27
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,依次选取两个或两个以上权重值较高的词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。同时,本发明还公开一种聚合相同主题网络文档的系统。本发明解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题,本发明可提高网络更新速度,提高用户的体验感。
-
-
-
-
-
-
-
-
-