一种基于图像场景特征的图像描述文本生成方法及系统

    公开(公告)号:CN117036545A

    公开(公告)日:2023-11-10

    申请号:CN202310874063.9

    申请日:2023-07-17

    Abstract: 本发明涉及一种基于图像场景特征的图像描述文本生成方法及系统,提取CNN获得图像的特征图,通过RPN提取特征图中的对象建议框;采用GRU二分结构的推理迭代预测和生成场景图;利用场景图中的对象即节点及其关系,通过CNN从图像中提取视觉特征和从场景图中提取以两个节点及其连接的边构成的三元组作为语义特征,得到视觉特征和语义特征;以Transformer为基础框架,引入片段级递归机制与相对位置编码,利用融合特征实现长依赖文本生成;对基于图像场景特征的图像描述文本生成网络进行训练,通过交叉熵函数计算输出长依赖描述文本与实际值之间的误差,得到图像描述文本生成网络;将待生成描述的图像输入图像描述文本生成网络生成多句连贯可读的故事性文字描述。

    一种自适应的基于词汇文本难度的生词标注系统及方法

    公开(公告)号:CN112949259A

    公开(公告)日:2021-06-11

    申请号:CN202110316129.3

    申请日:2021-03-24

    Abstract: 本发明提出一种自适应的基于词汇文本难度的生词标注方法及系统,所述方法包括以下步骤:步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;步骤四、进行文本难度评估,并给出文本难度提示信息。本发明既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。

    一种用于检索系统的数学公式索引创建方法与系统

    公开(公告)号:CN110795526A

    公开(公告)日:2020-02-14

    申请号:CN201911034594.7

    申请日:2019-10-29

    Abstract: 本发明提出一种用于检索系统的数学公式索引创建方法与系统,其能够通过公式解析、公式树节点合并、公式树节点重排、叶子节点符号替换、公式树字符串索引创建等几个步骤,实现对Latex数学公式的快速索引创建,解决了由于公式书写习惯差异、基本运算规律使用而导致的索引创建不唯一问题,能够为数学公式的精确检索提供准确、有效的倒排索引。该发明在计算机检索系统中对于数学知识检索、自动推理等方面具有重要的应用价值,提高了检索系统的检索效率。

    一种基于文本-标签密度的网页核心内容提取方法

    公开(公告)号:CN106055667B

    公开(公告)日:2019-06-04

    申请号:CN201610390441.6

    申请日:2016-06-06

    Inventor: 蒋东辰 闫艺鑫

    Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。

    一种基于文本‑标签密度的网页核心内容提取方法

    公开(公告)号:CN106055667A

    公开(公告)日:2016-10-26

    申请号:CN201610390441.6

    申请日:2016-06-06

    Inventor: 蒋东辰 闫艺鑫

    CPC classification number: G06F16/9577 G06F16/95

    Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。

    基于可弹性伸缩分布式负载均衡的容器镜像扫描方法及系统

    公开(公告)号:CN119960916A

    公开(公告)日:2025-05-09

    申请号:CN202510113735.3

    申请日:2025-01-24

    Inventor: 王贺 蒋东辰

    Abstract: 本发明提出一种基于可弹性伸缩分布式负载均衡的容器镜像扫描方法及系统,属于容器镜像安全领域,包括:S1:Server端基于Kubernetes的准入控制获取容器组模板;S2:Server根据模板执行不同的扫描策略;S3:Agent根据Server分发的镜像层从镜像仓库获取镜像层进行扫描并把结果回传到Server;S4:Job根据镜像名称在节点上进行扫描任务并上报扫描结果,任务执行结束后该Job容器自动销毁;S5:Server根据Agent的资源情况进行分发扫描任务并根据负载动态调整Agent数量;S6:系统通过校验镜像层ID唯一性,避免重复扫描。本发明方法实现了高效的容器镜像扫描和资源管理。

    一种简答题自动批改系统及方法

    公开(公告)号:CN110175585B

    公开(公告)日:2024-01-23

    申请号:CN201910462776.8

    申请日:2019-05-30

    Abstract: 本发明涉及一种简答题自动批改系统,其特征在于包括:文本解析和标注模块、相似度比较模块、相似度评分模块,客户端包括用户输入答案文本,用户标注词对和展示结果。本发明能够在不依赖于知识库的情况下实现对语义的深层分析,并且使用优化的词语比较方法,得到答案文本的相似度。

    一种自适应中文新词识别方法与系统

    公开(公告)号:CN111339753A

    公开(公告)日:2020-06-26

    申请号:CN202010117792.6

    申请日:2020-02-25

    Abstract: 本发明提出一种自适应中文新词识别方法及系统,所述方法包括如下步骤:文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平αp确定文本text中的所有非偶然共现的相邻汉字对;统计关联性判定步骤:给定关联性显著性水平αk,判定文本text中相邻中文字符的关联程度,筛选出具有内部强关联的中文字符串;现有词库过滤步骤:基于现有词典,在满足非偶然共现和内部关联性强的字符串中筛选出尚未在词典中出现的中文字符串。

Patent Agency Ranking