一种主题约束表示的关键词抽取方法及装置

    公开(公告)号:CN115687576B

    公开(公告)日:2023-04-07

    申请号:CN202211706894.7

    申请日:2022-12-29

    Applicant: 安徽大学

    Abstract: 本发明提出一种主题约束表示的关键词抽取方法,包括,获取目标文本并对目标文本进行预处理,获得字序列;将所述字序列输入到预训练语言模型,获得目标文本中每个字的向量和文本主题向量;计算所述每次字向量与文本主题向量的相似度,得到相似性权重,根据相似性权重获得每个字的主题约束表示向量;将主题约束表示向量输入到序列标注分类器,得到每个字对应各个标签的概率;对目标文本进行滑动窗口采样,获取所有的候选词语,根据每个字对应各个标签的概率对候选词语进行排序,选择排序后的候选词语获得目标关键词。通过本发明提出的主题约束表示的关键词抽取方法,解决了如何从文本中抽取多个关键词问题。

    一种网页内容提取方法、系统、电子设备及介质

    公开(公告)号:CN110427541B

    公开(公告)日:2022-09-16

    申请号:CN201910717220.9

    申请日:2019-08-05

    Applicant: 安徽大学

    Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。

    一种面向词典集的复杂从属结构网页信息抽取方法及系统

    公开(公告)号:CN108416048B

    公开(公告)日:2021-09-21

    申请号:CN201810220100.3

    申请日:2018-03-16

    Applicant: 安徽大学

    Abstract: 本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。

    一种基于神经机器翻译技术的局部引文推荐方法及系统

    公开(公告)号:CN109145190B

    公开(公告)日:2021-07-30

    申请号:CN201810994562.0

    申请日:2018-08-27

    Applicant: 安徽大学

    Abstract: 本发明公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。

    一种网页内容提取方法、系统、电子设备及介质

    公开(公告)号:CN110427541A

    公开(公告)日:2019-11-08

    申请号:CN201910717220.9

    申请日:2019-08-05

    Applicant: 安徽大学

    Abstract: 本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。

    一种提取论文标题中的问题方法对的方法

    公开(公告)号:CN108460021A

    公开(公告)日:2018-08-28

    申请号:CN201810219012.1

    申请日:2018-03-16

    Applicant: 安徽大学

    Abstract: 本发明公开了一种提取论文标题中的问题方法对的方法,包括:对论文标题进行标准化处理,在论文标题中进行论文关键词匹配`,得到初步问题方法概念集合;利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;构建用于分隔问题和方法的目标语法模式集合;根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对。

    一种面向词典集的复杂从属结构网页信息抽取方法及系统

    公开(公告)号:CN108416048A

    公开(公告)日:2018-08-17

    申请号:CN201810220100.3

    申请日:2018-03-16

    Applicant: 安徽大学

    Abstract: 本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。

    基于多粒度图对比学习的节点分类方法及装置

    公开(公告)号:CN119357782B

    公开(公告)日:2025-04-29

    申请号:CN202411931333.6

    申请日:2024-12-26

    Applicant: 安徽大学

    Abstract: 本申请提出了一种基于多粒度图对比学习的节点分类方法及装置,涉及图对比学习技术领域,其中,该方法包括:多粒度空间构建模块和多粒度对比学习模块。多粒度空间构建模块结合节点属性更新邻接矩阵,并使用粗化的方式构造融合属性信息的粗粒度图,基于原图与粗粒度图构成层次化的多粒度空间结构,多粒度对比学习模块使用最粗粒度层对最粗粒度层的对比学习方法和最粗粒度层与更细粒度层的对比学习方法,得到优化的节点嵌入表示。基于图节点嵌入表示进行节点分类,得到分类结果。采用上述方案的本申请在保证图对比学习的性能的同时,有效减少了图对比学习的时间成本,提升了节点分类的效率。

    一种面向Grounding DINO的量化推理加速方法及系统

    公开(公告)号:CN119443167A

    公开(公告)日:2025-02-14

    申请号:CN202510032308.2

    申请日:2025-01-09

    Applicant: 安徽大学

    Abstract: 本发明提供了一种面向Grounding DINO的量化推理加速方法及系统,属于计算机网络信息技术领域,方法包括:将待量化Grounding DINO模型中Linear层替换为W4Linear层,并获取待量化Grounding DINO模型的权重和权重矩阵的形状;根据权重矩阵的形状动态调整分组大小,基于分组大小对权重进行量化;对量化后的权重进行压缩,将待检测数据输入量化压缩后的Grounding DINO模型,模型基于W4A32行乘行去量化矩阵乘法推理出结果;解决Grounding DINO模型在资源受限的设备上部署时不能使用仅权重分组量化的问题,以及模型无法直接应用低位矩阵乘法内核的问题。

Patent Agency Ranking