-
公开(公告)号:CN112015915A
公开(公告)日:2020-12-01
申请号:CN202010902568.8
申请日:2020-09-01
Applicant: 哈尔滨工业大学
IPC: G06F16/36 , G06F16/332 , G06F16/31 , G06F40/186 , G06F40/289 , G06F40/30
Abstract: 基于问题生成的知识库问答系统及装置,涉及一种自动问答系统。为了解决基于知识图谱问答方法需要具备专业知识的人员标注专用数据集,从而存在标注成本高、工作量大、耗费时间长的问题。本发明系统的模板数据库用于存储模板;三元组扩展模块读入三元组并将三元组解析,从模板库中选取该关系下的全部模板;将实体替换模板中三元组相应的符号,生成句子;全文检索模块将用户查询的查询文本进行切分,然后将切分成词的查询语句转换为Lucene内部表示Query对象,并检索出与用户查询相关的一组句子作为候选集;语义匹配模块:采用基于预训练模型Bert的语义匹配网络对候选集进行排序,取最高分数对应的三元组作为答案返回给用户。主要用于实现自动问答。
-
公开(公告)号:CN110309511A
公开(公告)日:2019-10-08
申请号:CN201910600598.0
申请日:2019-07-04
Applicant: 哈尔滨工业大学
Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。
-
公开(公告)号:CN105068996B
公开(公告)日:2017-11-17
申请号:CN201510604035.0
申请日:2015-09-21
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数 W ‾ Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) , 完成中文分词增量的学习。本发明适用中文分词领域。
-
-