一种基于语义基元的年报文本词向量表示方法及系统

    公开(公告)号:CN117273000A

    公开(公告)日:2023-12-22

    申请号:CN202311148004.X

    申请日:2023-09-07

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本发明公开了一种基于语义基元的年报文本词向量表示方法及系统,该方法包括下述步骤:获取会计领域词典文本及财务报告领域停用词文本,基于年报文本构建语料库并进行切词;进行文本主题训练,获取每种主题分类中权重值最大的词汇作为主题词;进行词向量训练,得到每个词汇的向量表示;计算主题词之间的语义相似度;选择语义相似度最低的主题词作为语义基元;计算每个词汇与语义基元的语义相似度作为在对应语义基元维度的权重;进行归一化处理,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,得到由各个语义基元表示的词汇的特征向量表示。本发明利用有限个义原表示词向量能够降低词向量的表示维度,提高向量空间的稠密程度。

    一种年报主题语义识别方法
    2.
    发明公开

    公开(公告)号:CN117057358A

    公开(公告)日:2023-11-14

    申请号:CN202311021265.5

    申请日:2023-08-15

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本申请涉及金融数据处理技术领域,尤其涉及一种年报主题语义识别方法。包括:获取词向量提取模型;获取主题语义待识别的年报文本,针对年报文本进行词向量提取操作,得到待识别的词向量;获取主题语义分类知识库;通过主题语义分类知识库针对待识别词向量进行分析词的识别并且根据识别出的分析词进行情感词和主题语义的确认,相应地得到包括输出情感词和主题语义的识别结果。本申请在当前离散的情感词典的基础上,建立年报领域的情感语义分类词典,并标注年报中的情感描述对象作为年报主题语义。进一步在已经标注的语义知识库的基础上利用相似度计算方法实现文本的主题语义识别,提高本申请中主题识别的准确性。

    一种数据仓库优化管理系统
    5.
    发明公开

    公开(公告)号:CN115563081A

    公开(公告)日:2023-01-03

    申请号:CN202211163646.2

    申请日:2022-09-23

    Applicant: 暨南大学

    Inventor: 徐慧倩 潘定

    Abstract: 本发明公开了一种数据仓库优化管理系统,通过在系统中设置数据分析模块、数据仓库构建模块和数据仓库优化模块,对业务系统输入数据的采集、转换和加载载的ETL操作,分布式ETL计算将未处理的大数据及切分为若干个大小相等的小数据集,采用多个计算节点同时计算各个小数据集,能有效的使用多个计算机的运算能力,解决ETL过程耗时长的问题,提高了数据更新速率,通过粗略粒度估算待建的数据仓库数据量级来确定合适的系统数据粒度,根据估算的数据量级规模确定不同的数据粒度策略,根据使用的数据粒度确定表的分割策略,从而有效实现数据仓库的性能优化,提高数据质量且可信度高,将ETL的错误给数据仓库后续数据的处理的风险降到最低。

    一种面向年报的公司名称和关系抽取方法

    公开(公告)号:CN111680127A

    公开(公告)日:2020-09-18

    申请号:CN202010527938.4

    申请日:2020-06-11

    Applicant: 暨南大学

    Abstract: 发明公开了一种面向年报的公司名称和关系抽取方法,一种面向年报的公司名称和关系抽取方法,具体步骤为:步骤1、进行词向量模型的训练,步骤2、对公司关系的分类进行定义,将SVM分类的标签设为三类,分别是非投资关系、投资关系、无关系,步骤3、人工筛选反应公司关系的句子,步骤4、将公司关系文本语料中的句子用jieba分词分词后通过WORD2VEC词向量模型转换成向量表示,本发明涉及关系抽取技术领域。该面向年报的公司名称和关系抽取方法,解决了对于专家的过于依懒以及局限性很大,无法从一套关系模板中拓展出广泛采用的模板的问题。

    一种基于词向量的中文年报标题分类方法

    公开(公告)号:CN111666378A

    公开(公告)日:2020-09-15

    申请号:CN202010527929.5

    申请日:2020-06-11

    Applicant: 暨南大学

    Abstract: 发明公开了一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集,步骤2、对数据进行人工标注,并划分训练集,步骤3、对数据进行预处理,并训练Word2vector模型,步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量,步骤5、通过分类抽取得到目录,步骤3预处理具体为分词和去掉停用词,步骤3中Word2vector模型采用CBOW模型,本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。

    融合流程图和流程日志的多模态业务流程预测方法及系统

    公开(公告)号:CN118134232B

    公开(公告)日:2024-08-09

    申请号:CN202410552314.6

    申请日:2024-05-07

    Applicant: 暨南大学

    Inventor: 李艳 潘定

    Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。

    融合流程图和流程日志的多模态业务流程预测方法及系统

    公开(公告)号:CN118134232A

    公开(公告)日:2024-06-04

    申请号:CN202410552314.6

    申请日:2024-05-07

    Applicant: 暨南大学

    Inventor: 李艳 潘定

    Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。

    一种基于领域本体的XBRL财务信息元素语义对齐方法

    公开(公告)号:CN117272971A

    公开(公告)日:2023-12-22

    申请号:CN202311107722.2

    申请日:2023-08-30

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本发明公开了一种基于领域本体的XBRL财务信息元素语义对齐方法,该方法包括下述步骤:提取候选领域概念并构建领域词典中;获取财务报告附注文本作为语料库;对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,并构建财务报告领域的停用词词表;基于LDA模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展;将新的语料库中的词汇转换成词汇特征向量;提取层次关系和非分类关系;建立对齐方式并进行财务信息元素语义对齐。本发明采用领域本体形式化表示财务报告术语,并计算标签链接库中的标签之间的语义相似度,进而实现财务信息元素之间的语义对齐,保持XBRL报告之间一致性。

Patent Agency Ranking