-
公开(公告)号:CN112560472B
公开(公告)日:2023-07-11
申请号:CN201910918780.0
申请日:2019-09-26
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学
IPC: G06F40/30 , G06F40/289 , G06F40/242 , G06F16/35 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请是关于一种识别敏感信息的方法及装置,属于信息处理领域。所述方法包括:获取待识别的文本信息中包括的m个词语的词向量,第一词语的词向量是所述第一词语的语义表示,所述第一词语是所述m个词语中的一个,m为大于1的整数;基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量,所述第二词语是与所述第一词语前后相邻的词语,所述第一词语的隐层向量是所述第一词语的语义表示和上下文信息的语义表示;根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息。本申请能够提高识别敏感信息的精度。
-
公开(公告)号:CN115391608B
公开(公告)日:2023-05-23
申请号:CN202211013667.6
申请日:2022-08-23
Applicant: 哈尔滨工业大学
IPC: G06F16/901 , G06F16/35 , G06F18/241 , G06N3/0442 , G06N3/09 , G06F9/448
Abstract: 一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。
-
公开(公告)号:CN111339752B
公开(公告)日:2023-04-25
申请号:CN202010099489.8
申请日:2020-02-18
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/289 , G06F16/35
Abstract: 一种多任务联合学习的面向评价对象的情感分析方法,本发明涉及多任务联合学习的面向评价对象的情感分析方法。本发明的目的是为了解决现有文本对评价对象、评价对象情感、评价词抽取未考虑关联性,导致对文本有用信息抽取准确率低的问题。过程为:一、将文本进行词向量表示;二、将文本的词向量表示进行初步抽象,得到共享表示;三、基于二进行评价对象和评价词抽取,得到评价对象和评价词抽取的标签概率分布;四、基于二和三进行评价对象情感判断,得到评价对象情感判断的标签概率分布;五、得到更新后的概率分布;六、得到情感分析模型,采用情感分析模型完成对评价对象的情感分析。本发明用于评价对象、评价对象情感与评价词联合抽取领域。
-
公开(公告)号:CN110309511B
公开(公告)日:2022-12-09
申请号:CN201910600598.0
申请日:2019-07-04
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。
-
公开(公告)号:CN114676259A
公开(公告)日:2022-06-28
申请号:CN202210373952.2
申请日:2022-04-11
Applicant: 哈尔滨工业大学
Abstract: 一种基于因果感知交互网络的对话情绪识别方法,涉及情绪识别技术领域,针对现有技术中对话情绪识别的准确率低的问题,本申请提出了一种基于因果感知交互网络的对话情绪识别方法,用于对话情绪识别。更具体地说,本申请探索了在识别目标语句的情绪时,将情绪原因纳入考虑的有效性。常识知识作为因果线索被利用,以帮助自动提取因果关系,缓解因缺乏情感原因注释而带来的限制。然后,本申请设计了包括因果线索检索和因果语句回溯在内的两步因果感知交互,以检测与目标语句相关的自身和他人间情绪原因。由此获得了具有因果感知的上下文表述,用于情绪识别。在三个基准数据集上的实验结果证明了所提出的CauAIN的有效性及其检测准确情绪原因的能力。
-
公开(公告)号:CN113641822B
公开(公告)日:2022-05-24
申请号:CN202110922884.6
申请日:2021-08-11
Applicant: 哈尔滨工业大学
Abstract: 一种基于图神经网络的细粒度情感分类方法,涉及自然语言处理技术领域,针对现有技术中由于复杂的句法结构,相关情感词的信息会衰减,进而导致情感分类准确率低的问题,本申请利用评价对象中心化图以缓解基于评价对象的情感分类任务中情感信息在依赖路径上的衰减问题。具体来说,本申请将一个句子中的所有单词直接与评价对象联系起来。此外,为了区分不同词的重要性,并继承句法结构带来的优势,本申请根据相对依存距离对每个词赋予了不同的权重。在此基础上,本申请评价对象为中心的图卷积网,将特定方面的情感特征与上下文信息进行交互,有效捕捉评价对象和潜在情感词之间的关联,进而提高了情感分类的准确率。
-
公开(公告)号:CN113312530A
公开(公告)日:2021-08-27
申请号:CN202110652703.2
申请日:2021-06-09
Applicant: 哈尔滨工业大学
IPC: G06F16/906 , G06K9/62 , G06F16/35 , G06F16/55 , G06F16/75
Abstract: 一种以文本为核心的多模态情感分类方法,涉及自然语言处理技术领域,针对现有技术中将每个模态的语义信息看作一个整体,缺乏探索不同模态交互的能力,进而导致情感分类不准确的问题,包含两部分,一部分是跨模态预测模型,该模型以文本模态特征为输入,输出为语音/图像模态特征。利用该模型我们设计了共享特征与私有特征的判定规则,进而利用规则分辨出共享和私有特征。另一部分是情感预测模型,该模型利用跨模态注意力机制将文本模态特征与语音/图像的共享和私有特征进行融合,最后得到多模态融合特征进行情感分类。
-
公开(公告)号:CN112015915A
公开(公告)日:2020-12-01
申请号:CN202010902568.8
申请日:2020-09-01
Applicant: 哈尔滨工业大学
IPC: G06F16/36 , G06F16/332 , G06F16/31 , G06F40/186 , G06F40/289 , G06F40/30
Abstract: 基于问题生成的知识库问答系统及装置,涉及一种自动问答系统。为了解决基于知识图谱问答方法需要具备专业知识的人员标注专用数据集,从而存在标注成本高、工作量大、耗费时间长的问题。本发明系统的模板数据库用于存储模板;三元组扩展模块读入三元组并将三元组解析,从模板库中选取该关系下的全部模板;将实体替换模板中三元组相应的符号,生成句子;全文检索模块将用户查询的查询文本进行切分,然后将切分成词的查询语句转换为Lucene内部表示Query对象,并检索出与用户查询相关的一组句子作为候选集;语义匹配模块:采用基于预训练模型Bert的语义匹配网络对候选集进行排序,取最高分数对应的三元组作为答案返回给用户。主要用于实现自动问答。
-
公开(公告)号:CN110309511A
公开(公告)日:2019-10-08
申请号:CN201910600598.0
申请日:2019-07-04
Applicant: 哈尔滨工业大学
Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。
-
公开(公告)号:CN105068996B
公开(公告)日:2017-11-17
申请号:CN201510604035.0
申请日:2015-09-21
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数 W ‾ Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) , 完成中文分词增量的学习。本发明适用中文分词领域。
-
-
-
-
-
-
-
-
-