-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN103177126A
公开(公告)日:2013-06-26
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN103167029A
公开(公告)日:2013-06-19
申请号:CN201310070486.1
申请日:2013-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。
-
公开(公告)号:CN101841557B
公开(公告)日:2013-01-02
申请号:CN201010117154.0
申请日:2010-03-02
Applicant: 中国科学院计算技术研究所
IPC: H04N21/63 , H04N21/239 , H04L29/08 , H04L29/06
Abstract: 本发明公开了一种基于十字链表的P2P流媒体下载方法和系统。所述方法,包括下列步骤:用户节点采用十字链表数据结构为每个邻居节点维护一个邻居节点下载任务队列,为每个数据分片维护一个数据分片下载任务队列,并将两个队列存储于用户节点本身;所述用户节点在拥有预备下载的数据分片的邻居节点集合中,选择所述用户节点本地所维护的下载任务十字链表中相应邻居节点的下载任务队列中所有任务的估计完成时间最小的邻居节点,将该下载任务交给该节点完成所述数据分片的下载任务,同时更新所述邻居节点下载任务队列和数据分片下载任务队列。
-
公开(公告)号:CN101697553B
公开(公告)日:2012-07-11
申请号:CN200910235678.7
申请日:2009-10-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种P2P环境下的数据传输方法,包括:对所要传输数据做分割后得到多组子数据流;在用户所登录的用户节点以及该用户节点的邻居节点上维护推送记录表,所述推送记录表用于记录所在节点所要推送以及所要接收的子数据流的信息;所述邻居节点按照随机的顺序将不同组的子数据流推送给所述用户节点,所述用户节点接收子数据流后结合所述推送记录表中的信息为所述邻居节点分配该邻居节点负责推送的子数据流;所述用户节点接收并保存所述邻居节点所推送的数据。本发明将推策略与拉策略相结合,能够尽可能地减少数据分片丢失情况的出现。本发明通过竞争机制实现子数据流的分配,能够减少冗余数据包的传输,提高整个系统的性能。
-
公开(公告)号:CN102413003A
公开(公告)日:2012-04-11
申请号:CN201010287612.5
申请日:2010-09-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明一种检测网络安全性的方法和系统,方法包括:步骤1,依据网络中设备的初始状态、设备间连接关系和设备的脆弱性信息,生成包含攻击节点和状态节点的攻击图;步骤2,针对设定的目标节点,将攻击图转换为随机Petri网模型;步骤3,在随机Petri网模型上引入攻击行为的策略和效用信息,生成攻击视角的随机博弈网模型;在随机Petri网模型上引入防御行为的策略和效用信息,生成防御视角的随机博弈网模型;步骤4,合并攻击视角的随机博弈网模型和防御视角的随机博弈网模型,生成攻防博弈策略模型;步骤5,利用攻防博弈策略模型进行网络安全性的检测。本发明能够提高网络安全性检测的准确性。
-
公开(公告)号:CN101882136A
公开(公告)日:2010-11-10
申请号:CN200910083522.1
申请日:2009-05-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。
-
公开(公告)号:CN101770580A
公开(公告)日:2010-07-07
申请号:CN200910076428.3
申请日:2009-01-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种跨领域的文本情感分类器的训练方法,包括下列步骤:1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。
-
公开(公告)号:CN119418108A
公开(公告)日:2025-02-11
申请号:CN202411467737.4
申请日:2024-10-21
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/094 , G06N5/025
Abstract: 本发明提出一种基于因果扩散模型的鲁棒图像分类方法,包括:通过条件扩散模型建模结构因果模型;从图像数据集采集作为训练样本的样本图像;通过结构因果模型提取训练样本的因果特征和非因果特征并计算因果信息瓶颈,最大化因果信息瓶颈,更新结构因果模型,得到中间模型;采用中间模型生成该训练样本的因果特征,指导中间模型预测训练样本的预测类别,并根据训练样本的预测类别和类别标签构建损失函数,训练中间模型,得到图像分类模型;获取已标记目标类别的对抗样本图像,应用图像分类模型对接收的对抗样本进行净化处理,得到净化图像;利用图像分类模型提取净化图像的因果特征,并基于净化图像的因果特征得到净化图像的图像分类结果。
-
公开(公告)号:CN119360125A
公开(公告)日:2025-01-24
申请号:CN202411768569.2
申请日:2024-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06N5/04
Abstract: 本发明提出一种模型推理时的模型自适应更新方法和装置,包括:数据库存储图像分类模型推理时得到的数据样本,数据样本包括:数据特征及其对应的类别概率;通过将当前数据样本的数据特征和其余数据样本的数据特征间的余弦距离检索得到当前数据样本的邻居,通过对所有邻居的各类别概率进行平均,得到各类别的平均概率,取平均概率最高的类别作为当前数据样本的伪标签;根据数据样本及其对应的伪标签,构建损失函数,以对图像分类模型进行更新训练,使用更新训练后的图像分类模型对待分类图像进行图像分类,得到待分类图像的图像分类结果。与现有模型推理时自适应技术相比,模型调整更精准有效,极大提高了模型在不同场景的推理准确率。
-
-
-
-
-
-
-
-
-