-
公开(公告)号:CN114064888A
公开(公告)日:2022-02-18
申请号:CN202111175876.6
申请日:2021-10-09
Applicant: 暨南大学
IPC: G06F16/35 , G06F16/33 , G06F40/126 , G06F40/284 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q40/00
Abstract: 本发明公开了一种基于BERT‑CNN的金融文本分类方法及系统,该方法包括以下步骤:对金融文本数据进行预处理操作,预处理操作包括去除噪声信息、文本处理、分词处理、去除停用词;将所得到的输入向量输入BERT层得到的初始特征向量;将所得初始特征向量使用卷积神经网络提取高级特征向量;将所得高级特征向量和初始特征向量进行特征融合;通过线性全连接层和softmax分类层得到金融文本类别。本发明将BERT提取的初始特征与卷积神经网络层提取高级特征进行融合,通过融合特征挖掘金融文本的信息,解决了模型训练中存在着过拟合现象,有效提高模型分类准确度,同时避免BERT全部层的特征组成矩阵进行二维卷积,进而忽略不同层的特征分辨率之间存在的差异对模型性能的影响。