-
公开(公告)号:CN102867040A
公开(公告)日:2013-01-09
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
公开(公告)号:CN117333738B
公开(公告)日:2025-04-22
申请号:CN202311308831.0
申请日:2023-10-10
Applicant: 中国科学院计算技术研究所
IPC: G06V10/774 , G06V10/764 , G06V10/40
Abstract: 本发明实施例提供了一种图像分类模型训练方法,该方法包括:S1、获取包括多个图像样本的原始图像数据集及其对应的特征矩阵;S2、对原始图像数据集对应的特征矩阵进行降维处理,并将降维处理后的特征矩阵进行高斯建模以获得特征矩阵中每个特征值的高斯分布;S3、基于步骤S2中每个特征值的高斯分布对其依次进行高斯采样,以使高斯采样所得的所有特征值构成新的特征矩阵,并基于新的特征矩阵生成新的图像数据集;S4、采用新的图像数据集和原始图像数据集构成增强图像训练集训练图像分类模型至收敛。该方法提高了图像分类模型在少样本情况下的性能。
-
公开(公告)号:CN118070868B
公开(公告)日:2025-04-08
申请号:CN202410293163.7
申请日:2024-03-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于边缘计算架构的模型结构化剪枝方法及装置,该方法包括:根据集群中每一边缘设备的硬件资源信息,对边缘设备进行分组;对于同一组的边缘设备,将神经网络加速器在该边缘设备硬件的实际运行时间与内存资源消耗作为资源约束条件,对该边缘设备上部署的神经网络模型进行剪枝;校准修剪后的神经网络模型。该方法提高了计算设备的硬件处理速度,降低了内存消耗,进而提升了计算机系统的内部性能。
-
公开(公告)号:CN119669398A
公开(公告)日:2025-03-21
申请号:CN202411658765.4
申请日:2024-11-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/3329 , G06F40/211 , G06F40/284 , G06N5/04
Abstract: 本发明提供了一种基于查询引导的上下文压缩方法,包括:将查询信息和待压缩的上下文填入对话模板;分别计算所述对话模板的所述上下文中若干词元的第一注意力数值;根据所述若干词元对应的所述第一注意力数值将所述上下文进行注意力重构;将注意力重构后的所述上下文压缩到预定的目标压缩率之内。本发明还提供一种基于查询引导的上下文压缩系统、存储介质及电子设备。借此,本发明能够更高效地保留关键信息,将更短的上下文输入给生成模型,提高长上下文推理场景下生成模型的推理效率,降低推理成本。
-
公开(公告)号:CN116341551A
公开(公告)日:2023-06-27
申请号:CN202310320934.2
申请日:2023-03-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/211 , G06F40/242 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例提供一种基于依存分析和指代消解的实体言论抽取方法,包括:步骤S1、基于依存分析规则对待测文本进行解析得到依存分析结果,从依存分析结果中得到待测文本中的主语和谓语;步骤S2、识别待测文本中的主语是否为实体,以及识别待测文本中的谓语是否为触发词;步骤S3、在待测文本中的主语为实体且对应谓语为触发词时,提取待测文本中的触发词之后的言论,以得到包含主语、触发词和言论的实体言论,其中,当主语为指代词时,采用指代消解方式从指代词的前文中提取指代词所指代的真实实体名称作为所述实体言论中的主语。本发明实施例通过提取文本中真正的言论以及该言论对应的真实实体,使用户清楚快速地掌握各方的言论、观点和立场。
-
公开(公告)号:CN115934953A
公开(公告)日:2023-04-07
申请号:CN202211199328.1
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。
-
公开(公告)号:CN109617864B
公开(公告)日:2021-04-16
申请号:CN201811427628.4
申请日:2018-11-27
Applicant: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
Abstract: 本发明涉及一种网站识别方法及网站识别系统,其方法包括以下步骤:分别获取与多个第一网站一一对应的多个第一特征矩阵;基于原网络分类模型对所有第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;获取第二特征矩阵;基于深度学习网站分类模型对第二特征矩阵进行分类概率计算,得到分类概率向量;根据分类概率向量中的分类概率值识别第二网站为仿冒网站或者正常网站。本发明提供的网站识别方法及系统,减少了人工干预,降低了正常网站被误判为仿冒网站的概率,提高了仿冒网站识别的准确率。
-
公开(公告)号:CN103246714A
公开(公告)日:2013-08-14
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN103198149A
公开(公告)日:2013-07-10
申请号:CN201310142075.9
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询纠错方法和系统。所述方法包括:将查询语句转换为字符序列,判断字符序列的长度是否大于预定阈值δ;对长度大于δ的字符序列同时进行正向和反向查询纠错处理,直到重合处理的字符个数达到阈值M,得到正向和反向的候选语句项集合。所述方法还包括将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接,拼接后的候选语句项构成纠错候选项集合。所述方法支持中、英文混杂的查询语句,并且可对长查询采用正反向并行的查询纠错处理,这种并行的处理方式在保证正确率的同时节省了查询纠错的处理时间。
-
公开(公告)号:CN103116635A
公开(公告)日:2013-05-22
申请号:CN201310049317.X
申请日:2013-02-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
-
-
-
-
-
-
-
-
-