-
公开(公告)号:CN112883171B
公开(公告)日:2023-02-03
申请号:CN202110142917.5
申请日:2021-02-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。
-
公开(公告)号:CN115391522A
公开(公告)日:2022-11-25
申请号:CN202210921496.0
申请日:2022-08-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/30 , G06F40/258 , G06F40/295 , G06Q50/00 , G06N3/08
Abstract: 本发明提出一种基于社交平台元数据的文本主题建模方法和系统,包括基于文本数据的关键词,构建文本数据的词袋表示;基于文本数据的元数据类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用目标语义提取模型提取文本数据的文本语义表示;基于文本语义表示构造语义约束目标,以语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题‑关键词分布和主题嵌入表示。方法及系统可以对移动应用内广泛存在的短文本消息进行主题建模,提取出主题的关键词并学习得到主题的嵌入表示。
-
公开(公告)号:CN112287274B
公开(公告)日:2022-10-18
申请号:CN202011162449.X
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN112287273B
公开(公告)日:2022-09-30
申请号:CN202011161426.7
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。
-
公开(公告)号:CN110532291B
公开(公告)日:2022-07-12
申请号:CN201910676904.9
申请日:2019-07-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2455 , G06N20/00
Abstract: 本发明提出一种基于最小执行代价的深度学习框架间模型转换方法及系统,包括:在原有技术的基础上,添加操作转换代价值,同时考虑多个独立操作可以融合的情况,补充融合映射;模型的具体实现体现在构成模型的操作转换上,本阶段依据模型转换映射表,通过动态规划算法得到执行代价最低的转换后模型结构。本发明通过操作融合可以减少多个操作间中间结果的读写过程,从而优化计算性能和存储空间,进而降低转换后模型的执行代价。同时,在有多种融合可选时通过动态规划的算法得到执行代价最小的模型转换方法。
-
公开(公告)号:CN114418060A
公开(公告)日:2022-04-29
申请号:CN202111588857.6
申请日:2021-12-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种基于图表示学习的身份保持对抗训练方法、装置、介质,所述方法包括:获取训练场景的图数据,定义图数据的每一个节点为用于表征训练场景的一个原样本,定义原样本的样本身份信息;生成每一个原样本对应的对抗样本;通过为对抗样本添加身份保持约束,将对抗样本保持原样本的样本身份信息;将对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练;更新初始图表示学习模型,得到目标图表示学习模型,利用目标图表示学习模型预测训练场景中所述原样本在不同图挖掘任务下的输出。该方法将对抗样本与原样本保持相同的样本身份信息,提升了图表示学习在图结构数据分析中的精度,具有一定的普适性。
-
公开(公告)号:CN114185884A
公开(公告)日:2022-03-15
申请号:CN202111306456.7
申请日:2021-11-05
Applicant: 中国科学院计算技术研究所
IPC: G06F16/22 , G06F16/2453 , G06F16/2455 , G06F16/2458 , G06F16/51 , G06F16/53 , G06F16/31 , G06F16/33 , G06F16/901
Abstract: 本发明提出一种基于列存数据的流式数据处理方法及系统,包括:获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。
-
公开(公告)号:CN111062214B
公开(公告)日:2021-11-19
申请号:CN201911166642.8
申请日:2019-11-25
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于深度学习的集成实体链接方法及系统。首先选取某一个局部相似度模型,对待链接文档给出初步的链接结果。随后,根据每个指称词相应候选实体集合的局部相似度得分,候选实体集合生成方法本发明不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分,按照下述方法计算每个指称词的有效候选实体集合表达向量。结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。本发明利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,达到良好的实体链接性能。
-
公开(公告)号:CN110990059B
公开(公告)日:2021-11-19
申请号:CN201911191154.2
申请日:2019-11-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种用于倾斜数据的流式计算引擎运行方法及系统,包括:获取包含倾斜数据的用户作业,并将该用户作业转换为表示该用户作业的有向无环图,根据该有向无环图中算子的业务处理逻辑,将该有向无环图中节点划分为有状态算子和无状态算子;将全部状态算子包装为有状态任务后输入有状态数据流,将全部无状态算子包装为无状态任务后输入无状态数据流;将该无状态数据流中无状态任务复制发送至任意计算节点,得到无状态处理结果;将该有状态数据流中有状态任务转换为包含键和值的数据记录,将包含相同键的数据记录分配至相同计算节点,得到有状态处理结果,集合该无状态处理结果和有状态处理结果作为该用户作业的运行结果。
-
公开(公告)号:CN110502742B
公开(公告)日:2021-11-05
申请号:CN201910625736.0
申请日:2019-07-11
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
-
-
-
-
-
-
-
-
-