-
公开(公告)号:CN114385796A
公开(公告)日:2022-04-22
申请号:CN202111471317.X
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F16/332 , G06K9/62
Abstract: 本发明公开了一种基于fasttext的垃圾信息识别方法,本发明涉及自然语言处理和机器学习领域,结合TF‑IDF算法和fasttext算法,形成新的TF‑fasttext算法提供了对垃圾信息识别的效率。本发明对传统的fasttext算法进行了三个方面的优化。首先将TF‑IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。其次将改进后的TF‑IDF算法与n‑gram模型结合,形成新的TF‑IDF‑N算法对n‑gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。最后在fasttext算法的输出层用层次softmax函数提升了模型判断的精度,而且缩短了样本训练的时间。
-
公开(公告)号:CN115565699A
公开(公告)日:2023-01-03
申请号:CN202211387474.7
申请日:2022-11-07
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G16H80/00 , G06F40/289 , G06N3/04 , G06N3/08 , G06Q10/06
Abstract: 本发明公开了一种基于BERT的临床医学对话的意图识别办法,本发明涉及自然语言处理和问答系统领域,结合BERT模型与BiLSTM模型,形成新的IEBERT‑BiLSTM算法来进行问答系统意图的分类。本发明对传统的BERT模型进行了优化。引入记忆模块,将上一轮或者多轮的意图结果存储到记忆单元,在当前语句进行词向量之前,嵌入记忆单元的历史意图状态,再进行词向量化,增强了对邻次的输入数据进行综合考虑,保留了上下文的依赖关系;对传统的BiLSTM模型引入注意力机制,通过计算词与词之间的相似度去挖掘信息,在一定程度上降低噪点影响并提升用户意图的特征信息权值,提高模型的分类和预测效果。
-
公开(公告)号:CN119940356A
公开(公告)日:2025-05-06
申请号:CN202311452440.6
申请日:2023-11-03
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F40/284 , G06F40/242 , G06N3/0442 , G06N3/045 , G06N3/047
Abstract: 本发明公开了一种基于PSLL‑BilSTM‑CRF的特定领域的中文分词办法,本发明涉及自然语言处理领域,结合CRF模型与BiLSTM模型,形成新的PSLL‑BilSTM‑CRF算法来进行领域内中文分词。本发明对传统的jieba分词进行了思路上的提升,使用多种方式混合的方法构建分词算法以解决领域分词的任务,伪样本标注随机链接融合BilSTM、CRF模型,解决了高质量标注样本稀疏问题,加强了领域性词汇在模型中的权重,提高了当前分词模型在该领域环境中的表现。
-
公开(公告)号:CN114595336A
公开(公告)日:2022-06-07
申请号:CN202111479067.4
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
Abstract: 本发明提出一种基于高斯混合模型的多关系语义翻译模型。首先给出了贝叶斯非参数无限混合嵌入模型,并给出了相应的总体框架。其次给出了该算法的几何角度解释。然后给出了该算法的训练方法。最后,实验分析验证了该算法的有效性,实验结果表明该算法使多关系语义的问题得到有效解决。
-
-
-