-
公开(公告)号:CN110162624B
公开(公告)日:2024-04-09
申请号:CN201910304358.6
申请日:2019-04-16
Applicant: 腾讯科技(深圳)有限公司
Inventor: 唐亚腾
IPC: G06F16/35
Abstract: 本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。采用本发明,可以提高识别文本安全类型的效率。
-
公开(公告)号:CN117033671A
公开(公告)日:2023-11-10
申请号:CN202211226433.X
申请日:2022-10-09
Applicant: 腾讯科技(深圳)有限公司
Inventor: 唐亚腾
IPC: G06F16/432 , G06F16/435 , G06F16/438 , G06F16/9532 , G06F16/9535 , G06F16/9538 , G06F18/22
Abstract: 本申请实施例提供了一种数据处理方法、装置及计算机设备、存储介质、程序产品,该方法包括:召回内容领域数据用于表征与目标查询数据的查询意图信息相匹配的历史查询数据所召回的媒体内容的内容领域;发布内容领域数据用于表征目标查询数据的候选媒体内容的发布账号所发布的媒体内容的内容领域;将召回内容领域数据,与候选媒体内容的发布账号的发布内容领域数据进行匹配处理,得到目标查询数据与候选媒体内容的发布账号之间的内容领域匹配程度;基于内容领域匹配程度,在候选媒体内容中确定目标查询数据的召回结果。采用本申请实施例,可以召回发布内容领域与查询数据相匹配的发布账号所发布的媒体内容(即召回查询数据的领域相关账号结果)。
-
公开(公告)号:CN110569359B
公开(公告)日:2023-09-15
申请号:CN201910791312.1
申请日:2019-08-26
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35
Abstract: 本申请公开了一种识别模型的训练及应用方法、装置、计算设备及存储介质。该模型训练方法包括:获取不同来源的文本数据,其中,不同来源的文本数据中包括第一类文本数据和第二类文本数据,所述第一类文本数据具有来源标签,所述第二类文本数据具有预定属性标签,所述预定属性不包括文本来源;基于同一特征提取网络提取所述文本数据的特征数据;基于第一类文本数据的特征数据训练第一分类器,并基于第二类文本数据的特征数据训练第二分类器,其中所述第一分类器用于确定文本数据的来源,所述第二分类器用于确定文本数据的预定属性。由此,使得所训练的识别模型(机器学习模型)能够针对不同来源的数据间快速迁移并应用,从而节约成本并节省人力。
-
公开(公告)号:CN114329287A
公开(公告)日:2022-04-12
申请号:CN202111242832.0
申请日:2021-10-25
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/958
Abstract: 本申请实施例公开了一种异常链接处理方法、装置、计算机设备和存储介质;本申请实施例可以获取待检测的搜索链接;基于搜索链接进行内容搜索,得到每个搜索链接对应的网页结构;对网页结构进行解析,得到搜索链接在至少一个内容维度上的描述信息;针对每个内容维度的描述信息,采用对应的异常链接检测策略对搜索链接进行异常检测,得到每个内容维度的异常检测结果;基于异常检测结果对搜索链接进行封禁处理,从而提高了对异常链接进行处理的准确性。
-
公开(公告)号:CN111597306A
公开(公告)日:2020-08-28
申请号:CN202010421217.5
申请日:2020-05-18
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/33 , G06F40/284
Abstract: 本发明公开了一种语句识别方法和装置、存储介质及电子设备。其中,该方法包括:获取待识别的语句数据,将语句数据执行分词操作,得到词表数据,将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果,上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型,样本语句集合中包括第一样本语句集合和第二样本语句集合,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源。本发明解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
-
公开(公告)号:CN119577433A
公开(公告)日:2025-03-07
申请号:CN202311150248.1
申请日:2023-09-06
Applicant: 腾讯科技(深圳)有限公司 , 复旦大学
IPC: G06F18/214 , G06F18/241 , G06F18/27 , G06N20/00 , G06F17/18
Abstract: 本申请公开了一种数据处理方法和相关装置,针对获取的待处理样本和样本标签特征,生成特征节点和账号节点。根据各个特征分别与账号信息间的因果关系,将特征节点划分为账号独立节点和账号依赖节点这两种类型。由于账号独立节点对应的因果关系不随账号信息的改变而改变,账号依赖节点对应的因果关系随账号信息的改变而改变,针对不同类型的特征节点采用不同的因果发现机制进行针对性的因果关系发现,由此确定出高精度的因果关系,由于目标节点的因果关系能够直观的体现出数据特征和样本标签特征间影响机制的重要因素,故可以基于该因果关系优化待处理样本,提升训练样本的质量,由其训练得到的分类模型能够更好的为分类任务提供服务。
-
公开(公告)号:CN114547308B
公开(公告)日:2024-08-23
申请号:CN202210191468.8
申请日:2022-02-28
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施例提供了一种文本处理的方法、装置、设备以及存储介质,涉及人工智能的自然语言处理领域。该文本处理的方法,包括:获取待预测的文本数据;对该文本数据进行特征提取,得到该文本数据的特征向量;将该特征向量输入神经网络模型,得到该文本数据的标签,以便对该文本数据进行分类,其中,该神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;其中,该神经网络模型包括图神经网络和分类层,该图神经网络是根据用户对文本数据的行为构建的图网络得到的。本申请通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,能够有助于提高神经网络模型进行文本分类的准确性。
-
公开(公告)号:CN112084337B
公开(公告)日:2024-02-09
申请号:CN202010979853.X
申请日:2020-09-17
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289
Abstract: 本申请公开了一种文本分类模型的训练方法、文本分类方法及设备,涉及人工智能领域。该方法包括:获取第一训练样本集,第一训练样本集中包含第一训练文本;基于第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量,预训练BERT模型;获取第二训练样本集,第二训练样本集中包含第二训练文本,且第二训练文本包含对应的分类标签;基于第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量,以分类标签为分类目标微调BERT模型,得到文本分类模型。拼音向量的引入,使得文本分类模型能够识别出同音字替换后的违规内容,提高了同音字替换场景下文本分类的分类准确性以及分类效率。
-
公开(公告)号:CN113392210A
公开(公告)日:2021-09-14
申请号:CN202011381206.5
申请日:2020-11-30
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及计算机领域,特别涉及人工智能技术领域,公开了一种文本分类方法、装置、电子设备及存储介质,该方法包括:获取待识别的文本信息,将所述文本信息输入到已训练的第一文本分类模型中,得到目标词向量矩阵;再对各个目标词向量进行语义挖掘处理得到对应的语义特征,最后基于各个语义特征得到目标预测分类结果;而第一文本分类模型是基于第一损失值和第二损失值进行参数调整后得到的,第一损失值为预测分类结果与实际分类结果之间的误差值,第二损失值为两次预测分类结果之间的误差值。使用两种损失值调整第一文本分类模型的参数,让第一文本分类模型的预测分类结果趋近于实际分类结果和另一个预测分类结果,进一步提高模型的分类准确率。
-
公开(公告)号:CN110162624A
公开(公告)日:2019-08-23
申请号:CN201910304358.6
申请日:2019-04-16
Applicant: 腾讯科技(深圳)有限公司
Inventor: 唐亚腾
IPC: G06F16/35
Abstract: 本发明实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。采用本发明,可以提高识别文本安全类型的效率。
-
-
-
-
-
-
-
-
-