基于图卷积网络的社交网络文本情感细粒度分类方法

    公开(公告)号:CN110472003A

    公开(公告)日:2019-11-19

    申请号:CN201910728633.7

    申请日:2019-08-08

    Applicant: 东北大学

    Abstract: 本发明提供一种基于图卷积网络的社交网络文本情感细粒度分类方法,涉及自然语言处理(NLP)中检测文本作者情感极性的领域。本发明对于社交网络文本上的愤怒、厌恶、恐惧、快乐、喜欢、悲伤和惊讶等情绪进行分类,建立了一种基于语法的细粒度情感检测图形卷积网络(GCN)模型。该模型采用BI-LSTM网络对给定文本进行初步特征提取,将句子图的初步特征和邻接矩阵输入到一个单层GCN中,以利用句子的句法结构,最后得到池化层或全连接层的概率分布。用BI-LSTM网络与GCN相结合,增强了模型对汉语文本不同语法结构的理解,提高了模型的鲁棒性,提出的基于百分位数的池化方法提高了模型的精确度。

    一种通用论坛正文提取方法

    公开(公告)号:CN107239520A

    公开(公告)日:2017-10-10

    申请号:CN201710378377.4

    申请日:2017-05-25

    Applicant: 东北大学

    Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。

    基于图卷积网络的社交网络文本情感细粒度分类方法

    公开(公告)号:CN110472003B

    公开(公告)日:2022-02-22

    申请号:CN201910728633.7

    申请日:2019-08-08

    Applicant: 东北大学

    Abstract: 本发明提供一种基于图卷积网络的社交网络文本情感细粒度分类方法,涉及自然语言处理(NLP)中检测文本作者情感极性的领域。本发明对于社交网络文本上的愤怒、厌恶、恐惧、快乐、喜欢、悲伤和惊讶等情绪进行分类,建立了一种基于语法的细粒度情感检测图形卷积网络(GCN)模型。该模型采用BI‑LSTM网络对给定文本进行初步特征提取,将句子图的初步特征和邻接矩阵输入到一个单层GCN中,以利用句子的句法结构,最后得到池化层或全连接层的概率分布。用BI‑LSTM网络与GCN相结合,增强了模型对汉语文本不同语法结构的理解,提高了模型的鲁棒性,提出的基于百分位数的池化方法提高了模型的精确度。

    一种通用论坛正文提取方法

    公开(公告)号:CN107239520B

    公开(公告)日:2020-07-03

    申请号:CN201710378377.4

    申请日:2017-05-25

    Applicant: 东北大学

    Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。

Patent Agency Ranking