一种基于词向量的中文年报标题分类方法

    公开(公告)号:CN111666378A

    公开(公告)日:2020-09-15

    申请号:CN202010527929.5

    申请日:2020-06-11

    Applicant: 暨南大学

    Abstract: 发明公开了一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集,步骤2、对数据进行人工标注,并划分训练集,步骤3、对数据进行预处理,并训练Word2vector模型,步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量,步骤5、通过分类抽取得到目录,步骤3预处理具体为分词和去掉停用词,步骤3中Word2vector模型采用CBOW模型,本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。

    融合流程图和流程日志的多模态业务流程预测方法及系统

    公开(公告)号:CN118134232B

    公开(公告)日:2024-08-09

    申请号:CN202410552314.6

    申请日:2024-05-07

    Applicant: 暨南大学

    Inventor: 李艳 潘定

    Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。

    融合流程图和流程日志的多模态业务流程预测方法及系统

    公开(公告)号:CN118134232A

    公开(公告)日:2024-06-04

    申请号:CN202410552314.6

    申请日:2024-05-07

    Applicant: 暨南大学

    Inventor: 李艳 潘定

    Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。

    一种基于领域本体的XBRL财务信息元素语义对齐方法

    公开(公告)号:CN117272971A

    公开(公告)日:2023-12-22

    申请号:CN202311107722.2

    申请日:2023-08-30

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本发明公开了一种基于领域本体的XBRL财务信息元素语义对齐方法,该方法包括下述步骤:提取候选领域概念并构建领域词典中;获取财务报告附注文本作为语料库;对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,并构建财务报告领域的停用词词表;基于LDA模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展;将新的语料库中的词汇转换成词汇特征向量;提取层次关系和非分类关系;建立对齐方式并进行财务信息元素语义对齐。本发明采用领域本体形式化表示财务报告术语,并计算标签链接库中的标签之间的语义相似度,进而实现财务信息元素之间的语义对齐,保持XBRL报告之间一致性。

    一种年报文本结构识别方法

    公开(公告)号:CN110287784A

    公开(公告)日:2019-09-27

    申请号:CN201910416590.9

    申请日:2019-05-20

    Applicant: 暨南大学

    Abstract: 本发明公开了一种年报文本结构识别方法,体步骤为:步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;步骤3:比对候选第一标题和候选第二标题形成候选第三标题;步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;步骤5:整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。

    一种年报文本标题自动标注系统

    公开(公告)号:CN110287458A

    公开(公告)日:2019-09-27

    申请号:CN201910416616.X

    申请日:2019-05-20

    Applicant: 暨南大学

    Abstract: 本发明公开了一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配涉及年报文本标题标注技术领域。该年报文本标题自动标注系统,发明选择采用机器视觉的方法对财务报告文本版面进行识别,并将机器视觉和规则统计文本抽取方法有机结合起来,以解决较难准确的对标题进行标注的问题。

    基于人机协同作业的违章操作预警与危险任务等级预测方法

    公开(公告)号:CN117456439A

    公开(公告)日:2024-01-26

    申请号:CN202311205384.6

    申请日:2023-09-18

    Applicant: 暨南大学

    Inventor: 徐慧倩 潘定

    Abstract: 本发明公开了一种基于人机协同作业的违章操作预警与危险任务等级预测方法,该方法包括下述步骤:获取工人与机器协同操作的图像数据;对图像数据进行图像预处理,并划分图像数据集;基于W‑BA算法对预处理后的图像数据进行特征提取;使用CART树对提取的特征进行分类,构建违规特征分类模型,识别违章操作行为并进行预警;基于 训练计算每个特征分类的后验概率,并选择具有最高后验概率的类别作为危险任务等级预测结果,根据危险任务等级进行预警。本发明在实时监测中识别出违章操作行为,及时进行预警和干预,有助于避免因违章操作导致的意外事故,具备处理复杂操作场景的能力,显著提高了作业环境的安全性。

    一种会计术语共现网络图构建的方法

    公开(公告)号:CN113919342A

    公开(公告)日:2022-01-11

    申请号:CN202111096537.9

    申请日:2021-09-18

    Applicant: 暨南大学

    Inventor: 潘定 梁倬骞 叶迪

    Abstract: 本发明公开了一种会计术语共现网络图构建的方法,所述方法包括对会计领域的语义基元进行提取,即对会计词典中的词汇构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到会计术语的语义基元的候选集合。本发明利用会计领域知识的特点,针对会计词典语料设计了基于图论的语义基元抽取方法。会计词典作为会计领域重要专业语料和权威规范文本,系统全面地涵盖了会计领域有关术语及其定义。如果能借助从会计词典中抽取的语义基元,让计算机“读懂”会计文本,那么会计领域的大量信息将被得以有效利用,因此基于会计词典的术语研究有效突破了在语义基元抽取中的主观分析和小样本数据局限。

    一种面向XBRL领域本体的语义基元提取方法

    公开(公告)号:CN111797635A

    公开(公告)日:2020-10-20

    申请号:CN202010677371.9

    申请日:2020-07-14

    Applicant: 暨南大学

    Inventor: 潘定 叶迪 梁倬骞

    Abstract: 发明公开了一种面向XBRL领域本体的语义基元提取方法,具体步骤为:步骤1、通过会计词典中提取、整理会计术语的定义文本;步骤2、对文本进行切词、去停用词和去重处理;步骤3、构建会计术语有向网络图;步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据,该面向XBRL领域本体的语义基元提取方法,解决了目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性的问题。

    一种年报中的金融领域事件句提取方法

    公开(公告)号:CN111666769A

    公开(公告)日:2020-09-15

    申请号:CN202010528238.7

    申请日:2020-06-11

    Applicant: 暨南大学

    Abstract: 发明公开了一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据,步骤2、对数据进行预处理,步骤3、选取基于感知机序列标注的命名实体识别,步骤4、改进基于TextRank的关键词提取算法,步骤5、输出得出文本关键词,本发明涉及金融领域事件句提取技术领域。该年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。

Patent Agency Ranking