-
公开(公告)号:CN118134232B
公开(公告)日:2024-08-09
申请号:CN202410552314.6
申请日:2024-05-07
Applicant: 暨南大学
IPC: G06Q10/0633 , G06F18/21 , G06F18/2415 , G06F18/25 , G06N3/042 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。
-
公开(公告)号:CN118134232A
公开(公告)日:2024-06-04
申请号:CN202410552314.6
申请日:2024-05-07
Applicant: 暨南大学
IPC: G06Q10/0633 , G06F18/21 , G06F18/2415 , G06F18/25 , G06N3/042 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明公开了一种融合流程图和流程日志的多模态业务流程预测方法及系统,该方法包括下述步骤:获取票据处理事件日志数据集并挖掘流程图;基于挖掘出的流程结构特征构建最终的流程图节点表示,经全连接神经网络输出票据处理流程图结构维度的前k个下一票据处理事件预测值及对应概率;对票据处理事件日志数据集进行事件编码、事件位置编码和时间编码,拼接编码后的向量得到最终特征;基于因果多头注意力机制对最终特征进行注意力得分计算,经过Softmax分类器得到序列维度的前k个下一票据处理事件预测值及对应概率;将两个维度的前k个下一票据处理事件预测值进行加权融合得到最终预测结果。本发明提高了预测的准确度,实现多视角流程预测。
-
公开(公告)号:CN117272971A
公开(公告)日:2023-12-22
申请号:CN202311107722.2
申请日:2023-08-30
Applicant: 暨南大学
IPC: G06F40/189 , G06F40/242 , G06F40/295 , G06F40/211 , G06F40/30 , G06Q40/12
Abstract: 本发明公开了一种基于领域本体的XBRL财务信息元素语义对齐方法,该方法包括下述步骤:提取候选领域概念并构建领域词典中;获取财务报告附注文本作为语料库;对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,并构建财务报告领域的停用词词表;基于LDA模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展;将新的语料库中的词汇转换成词汇特征向量;提取层次关系和非分类关系;建立对齐方式并进行财务信息元素语义对齐。本发明采用领域本体形式化表示财务报告术语,并计算标签链接库中的标签之间的语义相似度,进而实现财务信息元素之间的语义对齐,保持XBRL报告之间一致性。
-
公开(公告)号:CN110287784A
公开(公告)日:2019-09-27
申请号:CN201910416590.9
申请日:2019-05-20
Applicant: 暨南大学
Abstract: 本发明公开了一种年报文本结构识别方法,体步骤为:步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;步骤3:比对候选第一标题和候选第二标题形成候选第三标题;步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;步骤5:整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
-
公开(公告)号:CN110287458A
公开(公告)日:2019-09-27
申请号:CN201910416616.X
申请日:2019-05-20
Applicant: 暨南大学
Abstract: 本发明公开了一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配涉及年报文本标题标注技术领域。该年报文本标题自动标注系统,发明选择采用机器视觉的方法对财务报告文本版面进行识别,并将机器视觉和规则统计文本抽取方法有机结合起来,以解决较难准确的对标题进行标注的问题。
-
公开(公告)号:CN117273000A
公开(公告)日:2023-12-22
申请号:CN202311148004.X
申请日:2023-09-07
Applicant: 暨南大学
IPC: G06F40/295 , G06F40/30 , G06F40/237 , G06N20/00
Abstract: 本发明公开了一种基于语义基元的年报文本词向量表示方法及系统,该方法包括下述步骤:获取会计领域词典文本及财务报告领域停用词文本,基于年报文本构建语料库并进行切词;进行文本主题训练,获取每种主题分类中权重值最大的词汇作为主题词;进行词向量训练,得到每个词汇的向量表示;计算主题词之间的语义相似度;选择语义相似度最低的主题词作为语义基元;计算每个词汇与语义基元的语义相似度作为在对应语义基元维度的权重;进行归一化处理,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,得到由各个语义基元表示的词汇的特征向量表示。本发明利用有限个义原表示词向量能够降低词向量的表示维度,提高向量空间的稠密程度。
-
公开(公告)号:CN117057358A
公开(公告)日:2023-11-14
申请号:CN202311021265.5
申请日:2023-08-15
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06F40/242 , G06F16/35 , G06N5/025
Abstract: 本申请涉及金融数据处理技术领域,尤其涉及一种年报主题语义识别方法。包括:获取词向量提取模型;获取主题语义待识别的年报文本,针对年报文本进行词向量提取操作,得到待识别的词向量;获取主题语义分类知识库;通过主题语义分类知识库针对待识别词向量进行分析词的识别并且根据识别出的分析词进行情感词和主题语义的确认,相应地得到包括输出情感词和主题语义的识别结果。本申请在当前离散的情感词典的基础上,建立年报领域的情感语义分类词典,并标注年报中的情感描述对象作为年报主题语义。进一步在已经标注的语义知识库的基础上利用相似度计算方法实现文本的主题语义识别,提高本申请中主题识别的准确性。
-
公开(公告)号:CN115759119B
公开(公告)日:2023-04-21
申请号:CN202310030728.8
申请日:2023-01-10
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/242 , G06F40/284 , G06F16/35 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/091
Abstract: 本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
-
公开(公告)号:CN115759119A
公开(公告)日:2023-03-07
申请号:CN202310030728.8
申请日:2023-01-10
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/242 , G06F40/284 , G06F16/35 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/091
Abstract: 本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
-
公开(公告)号:CN115563081A
公开(公告)日:2023-01-03
申请号:CN202211163646.2
申请日:2022-09-23
Applicant: 暨南大学
Abstract: 本发明公开了一种数据仓库优化管理系统,通过在系统中设置数据分析模块、数据仓库构建模块和数据仓库优化模块,对业务系统输入数据的采集、转换和加载载的ETL操作,分布式ETL计算将未处理的大数据及切分为若干个大小相等的小数据集,采用多个计算节点同时计算各个小数据集,能有效的使用多个计算机的运算能力,解决ETL过程耗时长的问题,提高了数据更新速率,通过粗略粒度估算待建的数据仓库数据量级来确定合适的系统数据粒度,根据估算的数据量级规模确定不同的数据粒度策略,根据使用的数据粒度确定表的分割策略,从而有效实现数据仓库的性能优化,提高数据质量且可信度高,将ETL的错误给数据仓库后续数据的处理的风险降到最低。
-
-
-
-
-
-
-
-
-