-
公开(公告)号:CN117195998A
公开(公告)日:2023-12-08
申请号:CN202311097640.4
申请日:2023-08-29
Applicant: 安徽大学
IPC: G06N3/082 , G06N3/0464
Abstract: 本发明公开了一种改进的卷积神经网络模型的滤波器软剪枝方法,包括步骤:S1、对神经网络模型参数化设置;S2、对神经网络模型训练更新其参数,对BN层的缩放因子γ施加稀疏惩罚;S3、依据稀疏分布的缩放因子γ对部分卷积层滤波器参数置零;S4、依据参数置零情况进行剪枝,获取轻量化神经网络模型。本发明对神经网络模型中的滤波器软剪枝的流程进行了优化,通过去除软剪枝流程中的预剪枝(Pre‑Pruning)阶段,并结合融合历史梯度的参数优化器,使用不依赖于滤波器参数的剪枝标准(即BN层的缩放因子γ),解决了软剪枝面对类ReLU激活函数时无法生效的问题,克服现有滤波器软剪枝方法的缺陷,从而发挥出软剪枝方法的潜力,获得更好的神经网络模型性能。
-
公开(公告)号:CN115641009B
公开(公告)日:2023-05-05
申请号:CN202211421320.5
申请日:2022-11-14
Applicant: 安徽大学
IPC: G06Q10/0637 , G06N5/025 , G06F18/22 , G06F40/30 , G06F40/216
Abstract: 本申请提出了一种基于专利异构信息网络挖掘竞争者的方法及装置,涉及网络表示学习领域,包括:获取竞争对真值,根据竞争对真值从专利数据库中抽取并清洗专利数据以构建专利数据集;根据专利数据集确定专利语义相似度,根据专利语义相似度构建专利语义连边,根据专利语义连边构建专利异构信息网络;通过图嵌入获取专利异构信息网络内公司节点以及公司节点所处的结构特征;筛选公司节点,通过注意力机制综合公司节点的向量表示,得到公司节点的嵌入矩阵;根据嵌入矩阵计算公司节点间的余弦相似度,其中,将余弦相似度最高的结果作为目标公司的候选竞争者。本申请通过专利数据构建网络,引入图嵌入方法与注意力机制用于竞争者挖掘,提高挖掘效率。
-
公开(公告)号:CN110427541B
公开(公告)日:2022-09-16
申请号:CN201910717220.9
申请日:2019-08-05
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/9532 , G06F16/958
Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
-
公开(公告)号:CN108416048B
公开(公告)日:2021-09-21
申请号:CN201810220100.3
申请日:2018-03-16
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/958 , G06F16/957 , G06F40/242
Abstract: 本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。
-
公开(公告)号:CN109145190B
公开(公告)日:2021-07-30
申请号:CN201810994562.0
申请日:2018-08-27
Applicant: 安徽大学
IPC: G06F16/953 , G06F40/216 , G06F40/58
Abstract: 本发明公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
-
公开(公告)号:CN110427541A
公开(公告)日:2019-11-08
申请号:CN201910717220.9
申请日:2019-08-05
Applicant: 安徽大学
IPC: G06F16/951 , G06F16/9532 , G06F16/958
Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
-
公开(公告)号:CN108460021A
公开(公告)日:2018-08-28
申请号:CN201810219012.1
申请日:2018-03-16
Applicant: 安徽大学
IPC: G06F17/27
Abstract: 本发明公开了一种提取论文标题中的问题方法对的方法,包括:对论文标题进行标准化处理,在论文标题中进行论文关键词匹配`,得到初步问题方法概念集合;利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;构建用于分隔问题和方法的目标语法模式集合;根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对。
-
公开(公告)号:CN108416048A
公开(公告)日:2018-08-17
申请号:CN201810220100.3
申请日:2018-03-16
Applicant: 安徽大学
Abstract: 本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。
-
公开(公告)号:CN107122403A
公开(公告)日:2017-09-01
申请号:CN201710174575.9
申请日:2017-03-22
Applicant: 安徽大学
IPC: G06F17/30
Abstract: 本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
-
公开(公告)号:CN105260415A
公开(公告)日:2016-01-20
申请号:CN201510621622.0
申请日:2015-09-24
Applicant: 安徽大学
CPC classification number: G06F16/958 , G06Q50/01
Abstract: 本发明公开了一种分层递阶的多粒度社团发现方法,其特征是按如下步骤进行:1计算所述网络中任意两个节点的相似度;2构建截距集合;3找出最大相容类集合;4近似获得等价类集合;5根据截距集合,并重复步骤3和4,从而获得不同截距下的社团结构。本发明能在原始网络结构特性的基础上发现所有节点之间的层次关系以及不同粒度的社团结构,从而确保社团划分结果的准确性和层次的唯一性。
-
-
-
-
-
-
-
-
-