-
公开(公告)号:CN113919342A
公开(公告)日:2022-01-11
申请号:CN202111096537.9
申请日:2021-09-18
Applicant: 暨南大学
IPC: G06F40/289 , G06F40/216 , G06F16/36 , G06F40/30
Abstract: 本发明公开了一种会计术语共现网络图构建的方法,所述方法包括对会计领域的语义基元进行提取,即对会计词典中的词汇构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到会计术语的语义基元的候选集合。本发明利用会计领域知识的特点,针对会计词典语料设计了基于图论的语义基元抽取方法。会计词典作为会计领域重要专业语料和权威规范文本,系统全面地涵盖了会计领域有关术语及其定义。如果能借助从会计词典中抽取的语义基元,让计算机“读懂”会计文本,那么会计领域的大量信息将被得以有效利用,因此基于会计词典的术语研究有效突破了在语义基元抽取中的主观分析和小样本数据局限。
-
公开(公告)号:CN111797635A
公开(公告)日:2020-10-20
申请号:CN202010677371.9
申请日:2020-07-14
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/289 , G06F40/247 , G06F40/242
Abstract: 发明公开了一种面向XBRL领域本体的语义基元提取方法,具体步骤为:步骤1、通过会计词典中提取、整理会计术语的定义文本;步骤2、对文本进行切词、去停用词和去重处理;步骤3、构建会计术语有向网络图;步骤4、基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据,该面向XBRL领域本体的语义基元提取方法,解决了目前基于当前流行的机器学习算法试图解决语义基元提取难点,该种方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性的问题。
-