-
公开(公告)号:CN114443820A
公开(公告)日:2022-05-06
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN113190733A
公开(公告)日:2021-07-30
申请号:CN202110459851.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN113128587A
公开(公告)日:2021-07-16
申请号:CN202110413687.1
申请日:2021-04-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于位置学习图卷积神经网络的图分类方法和系统,本发明目的是解决上述现有图分类方法启发式地对图中节点进行排序、选择的过程导致重要结构丢失和提取不到启发式规则下的关键结构等问题。具体来说,本发明提出了一种基于位置学习卷积神经网络的图分类方法,核心思想是通过为图上每个节点学习对应的位置,进而得到整个图的表示。这种端到端的建模方式有效避免了对节点进行排序、选择和丢弃的过程,不仅提升了图分类的准确率,而且保证了对关键结构的有效提取。
-
公开(公告)号:CN112883171A
公开(公告)日:2021-06-01
申请号:CN202110142917.5
申请日:2021-02-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109741198B
公开(公告)日:2021-03-05
申请号:CN201811434864.9
申请日:2018-11-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种网络信息传播影响力度量方法、系统,包括:根据社交网络中消息传播的历史传播数据,构建节点和传播源的激活对;将社交网络中的用户作为节点,将给定消息的传播数据中参与时间为0的节点作为给定消息的传播源,通过聚合函数将传播源对节点的影响力进行聚合后通过影响力边际递减函数,得到节点在传播源下被激活的概率;以历史传播数据为训练数据,以概率的对数似然最大作为目标,对所有激活对使用随机梯度下降进行参数学习,得到节点间影响力,以得到传播源集合的影响力度量。本发明提出的基于数据驱动的影响力最大化方法直接基于本发明学习得到的影响力度量,对节点的边际效应进行估计,以高效地进行影响力最大化的节点集合选择。
-
公开(公告)号:CN108959204B
公开(公告)日:2021-03-05
申请号:CN201810653622.2
申请日:2018-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06F40/151 , G06F40/143 , G06F16/84 , G06F16/25
Abstract: 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树节点的特征向量作为训练数据,训练属性标注模型;获取金融项目信息的待抽取网页,将待抽取网页的DOM树,确定待抽取网页的目标项目区域,根据待抽取网页的目标项目区域中项目列表是否为表格,执行相应的抽取步骤。本发明通过将两种不同特点的互联网金融项目列表分开并对应使用不同的抽取方法,极大的提高了抽取的效率和准确率。
-
公开(公告)号:CN112307351A
公开(公告)日:2021-02-02
申请号:CN202011318160.2
申请日:2020-11-23
Applicant: 中国科学院计算技术研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/9535 , G06F16/9536 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本申请公开了用户行为的模型训练、推荐方法、装置和设备,模型训练方法包括:获取用户行为序列;将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达;根据当前用户表达与用户行为序列,得到第一训练样本;根据第一训练样本采用互信息损失函数确定互信息损失值,并根据互信息损失值更新用户行为序列模型的模型参数;以更新后的模型参数作为当前模型参数,返回执行将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达的步骤,直至当前模型参数满足预设条件。本申请通过基于互信息最大化的无监督学习方法实现了用户行为序列建模,降低用户行为序列模型的训练时间和成本,可广泛应用于人工智能领域。
-
公开(公告)号:CN112287272A
公开(公告)日:2021-01-29
申请号:CN202011161424.8
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN109753602B
公开(公告)日:2020-12-25
申请号:CN201811473591.9
申请日:2018-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。
-
-
-
-
-
-
-
-
-