-
公开(公告)号:CN117272971A
公开(公告)日:2023-12-22
申请号:CN202311107722.2
申请日:2023-08-30
Applicant: 暨南大学
IPC: G06F40/189 , G06F40/242 , G06F40/295 , G06F40/211 , G06F40/30 , G06Q40/12
Abstract: 本发明公开了一种基于领域本体的XBRL财务信息元素语义对齐方法,该方法包括下述步骤:提取候选领域概念并构建领域词典中;获取财务报告附注文本作为语料库;对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,并构建财务报告领域的停用词词表;基于LDA模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展;将新的语料库中的词汇转换成词汇特征向量;提取层次关系和非分类关系;建立对齐方式并进行财务信息元素语义对齐。本发明采用领域本体形式化表示财务报告术语,并计算标签链接库中的标签之间的语义相似度,进而实现财务信息元素之间的语义对齐,保持XBRL报告之间一致性。
-
公开(公告)号:CN117273000A
公开(公告)日:2023-12-22
申请号:CN202311148004.X
申请日:2023-09-07
Applicant: 暨南大学
IPC: G06F40/295 , G06F40/30 , G06F40/237 , G06N20/00
Abstract: 本发明公开了一种基于语义基元的年报文本词向量表示方法及系统,该方法包括下述步骤:获取会计领域词典文本及财务报告领域停用词文本,基于年报文本构建语料库并进行切词;进行文本主题训练,获取每种主题分类中权重值最大的词汇作为主题词;进行词向量训练,得到每个词汇的向量表示;计算主题词之间的语义相似度;选择语义相似度最低的主题词作为语义基元;计算每个词汇与语义基元的语义相似度作为在对应语义基元维度的权重;进行归一化处理,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,得到由各个语义基元表示的词汇的特征向量表示。本发明利用有限个义原表示词向量能够降低词向量的表示维度,提高向量空间的稠密程度。
-
公开(公告)号:CN117057358A
公开(公告)日:2023-11-14
申请号:CN202311021265.5
申请日:2023-08-15
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06F40/242 , G06F16/35 , G06N5/025
Abstract: 本申请涉及金融数据处理技术领域,尤其涉及一种年报主题语义识别方法。包括:获取词向量提取模型;获取主题语义待识别的年报文本,针对年报文本进行词向量提取操作,得到待识别的词向量;获取主题语义分类知识库;通过主题语义分类知识库针对待识别词向量进行分析词的识别并且根据识别出的分析词进行情感词和主题语义的确认,相应地得到包括输出情感词和主题语义的识别结果。本申请在当前离散的情感词典的基础上,建立年报领域的情感语义分类词典,并标注年报中的情感描述对象作为年报主题语义。进一步在已经标注的语义知识库的基础上利用相似度计算方法实现文本的主题语义识别,提高本申请中主题识别的准确性。
-
-