文本分类方法、装置、设备和存储介质

    公开(公告)号:CN118656490A

    公开(公告)日:2024-09-17

    申请号:CN202410629623.9

    申请日:2024-05-21

    Abstract: 本发明涉及一种文本分类方法、装置、设备和存储介质,文本分类方法包括:获取待处理文本,待处理文本包含对于目标事件的目标观点;将大模型运用到特定文本分类任务上,在该分类任务的目标立场下对待处理文本进行分类处理,确定目标事件的事件类别,且大模型还是基于少数据量的数据集上训练的,准确率也很高,同时在分类任务的基础上,提出了多任务间的自我校验的可解释优化任务,确定反应目标观点情感倾向的可解释的倾向信息;使用二分类模型对可解释的倾向信息进行语义分析,审核大模型的分类准确性,确定反应目标观点情感倾向的倾向类别;根据倾向类别和事件类别,确定待处理文本的目标类别,有效提高了文本分类的准确性。

    一种网页主题的标注方法和装置

    公开(公告)号:CN104881458B

    公开(公告)日:2019-05-28

    申请号:CN201510266108.X

    申请日:2015-05-22

    Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。

    一种网页主题的标注方法和装置

    公开(公告)号:CN104881458A

    公开(公告)日:2015-09-02

    申请号:CN201510266108.X

    申请日:2015-05-22

    CPC classification number: G06F16/374 G06F16/35

    Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。

    一种微博团体的发现方法及装置

    公开(公告)号:CN104850647A

    公开(公告)日:2015-08-19

    申请号:CN201510284124.1

    申请日:2015-05-28

    CPC classification number: G06F16/951 G06Q50/01

    Abstract: 本发明公开了一种微博团体的发现方法及装置,其中,该方法包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明实施例为不同种类的信息建立各自独立的特征信息词典,从用户一定时间段内更新的信息中分词,来与特征信息词典中的词语进行比对,进而确定用户的兴趣特征向量,再通过无监督学习方式来确定用户团体信息,通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体,具有更准确的推广意义,传播力度大大提高,解决了现有问题。

    一种模板网站关键源码片段识别方法

    公开(公告)号:CN118796264A

    公开(公告)日:2024-10-18

    申请号:CN202410768709.X

    申请日:2024-06-14

    Abstract: 本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。

Patent Agency Ranking