-
公开(公告)号:CN111428519B
公开(公告)日:2022-03-29
申请号:CN202010151246.4
申请日:2020-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于熵的神经机器翻译动态解码方法及系统,通过分析句子的熵值与BLEU值之间的关系,发现BLEU值高的句子中单词的平均熵值比BLEU值低的句子中单词的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通过计算句子的熵值与BLEU值之间的Pearson系数,发现两者之间存在相关性。因此,本发明提出在训练过程解码阶段的每个时间步,不仅要以一定的概率采样选择真实单词或预测单词获取上下文信息,还要根据上一个时间步的预测结果计算熵值,然后根据熵值动态调整上下文信息的权重。解决了神经机器翻译模型在解码过程中因训练和推断之间的上下文信息差异而导致的错误累积问题。
-
公开(公告)号:CN114119027A
公开(公告)日:2022-03-01
申请号:CN202110482852.9
申请日:2021-04-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种多属性的耦合稠密异常交易子图检测方法和系统。包括:将具有多属性的信息流建模为两个耦合的张量,并提出了一种新的多属性异常度量来准确地找到其中的稠密子张量。同时,本发明能很好地应用于非法资金转移检测问题:非法资金转移通常是一种从源账户开始,经过中间账户,汇聚到目标账户的资金流动过程,同时还具有快进快出、中间账户清空等性质。使用本发明能够有效捕捉欺诈性账户密集、可疑的非法资金转移行为;本发明设计的多属性异常度量也能够有效结合中间账户在短时间内清空余额的特点,进而准确地检测出非法资金转移交易链。
-
公开(公告)号:CN114077705A
公开(公告)日:2022-02-22
申请号:CN202111120139.6
申请日:2021-09-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明实施例提供了一种对社交平台上的媒体账号进行画像的方法和系统,该方法包括:获取社交平台的账号信息,识别其中符合第一筛选条件的媒体账号以构建第一集合,采集第一集合内的媒体账号的属性数据和历史贴文数据并存储于数据库,第一筛选条件包括地域条件和媒体类型条件;标注种子媒体账号,根据种子媒体账号从数据库检索符合第二筛选条件的关联媒体账号以共同构建第二集合,第二筛选条件从粉丝数、活跃度、双向信息交流的频次、新闻相关性中的至少一个方面进行筛选;基于第二集合中各个媒体账号的属性数据和历史贴文数据,从多个维度对相应媒体账号进行画像,得到多个维度的指标,并根据多个维度的指标计算媒体价值指数以标识媒体价值。
-
公开(公告)号:CN114065749A
公开(公告)日:2022-02-18
申请号:CN202111332368.4
申请日:2021-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F40/279 , G06F40/289 , G06F40/216 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
-
公开(公告)号:CN109815387B
公开(公告)日:2021-11-19
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
公开(公告)号:CN109271524B
公开(公告)日:2021-10-15
申请号:CN201810870053.7
申请日:2018-08-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F16/332
Abstract: 本发明提供一种知识库问答系统中的实体链接方法,包括:从问句中获取主题词集合;根据获取的主题词集合在知识库中进行搜索,得到初步候选实体集合;对于所述初步候选实体集合中的每个实体,从该实体、所述问句以及所述知识库提取相应的特征;以及,根据提取到的所述初步候选实体集合中的每个实体的特征,得到该实体的评分,并且根据评分得到候选实体集合;本发明提高了实体链接的准确性和效率。
-
公开(公告)号:CN110795943B
公开(公告)日:2021-10-08
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN109992629B
公开(公告)日:2021-08-06
申请号:CN201910149696.7
申请日:2019-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/28
Abstract: 本发明涉及一种融合实体类型约束的神经网络关系抽取方法及系统,包括对实体类型施加注意力机制,该机制对实体的多种类型分配了不同权重,从而凸显了影响最大的类型标签;在损失函数中添加实体类型约束函数,该约束函数在更新过程中使实体词向量学习到实体类型信息,从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。
-
公开(公告)号:CN113139098A
公开(公告)日:2021-07-20
申请号:CN202110308958.7
申请日:2021-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06N3/04
Abstract: 本发明提出一种同质关系大图的摘要提取方法及系统,包括:获取待摘要提取的关系图数据作为当前图数据,且该关系图数据为同质关系大图,并将该当前图数据中每个节点均看作超点;根据该当前图数据的邻接矩阵,通过局部敏感哈希对该当前图数据中节点进行分组;从组中随机选择多个超点对,分别计算该超点对若合并后和该关系图数据之间的差距,选择差距最小的超点对进行合并,得到重构图数据;输出该重构图数据作为摘要提取结果。
-
公开(公告)号:CN109889452B
公开(公告)日:2021-06-11
申请号:CN201910012933.5
申请日:2019-01-07
Applicant: 中国科学院计算技术研究所
IPC: H04L12/851 , H04L12/24 , H04L12/26 , H04L1/00
Abstract: 本发明涉及一种基于条件生成式对抗网络的网络背景流量生成方法,包括:数据获取步骤,获取的网络流量数据及条件信息,并向量化为真实流量;模型生成步骤,以该真实流量得到初始生成模型和判别模型,并通过条件生成式对抗网络以该判别模型对该初始生成模型进行训练,以得到生成模型;流量生成步骤,通过该生成模型以随机向量生成模拟背景流量。
-
-
-
-
-
-
-
-
-