-
公开(公告)号:CN112580332B
公开(公告)日:2022-07-12
申请号:CN202011303829.0
申请日:2020-11-19
Applicant: 淮阴工学院
IPC: G06F40/216 , G06F40/242 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 发明公开了一种基于标签分层延深建模的企业画像方法,首先对企业模糊标签进行统计和筛选,筛选出如批发业、零售业等不能完整概括企业特点的标签,使用Bert模型依据企业经营范围和企业标签对筛选出的标签进行分类延深;然后将企业名称、企业简介、经营范围信息整合,基于预先建立好的企业词库进行特征拓展,分别使用TextRank、TF‑IDF、LDA主题模型从综合信息中抽取关键词,将处理后的关键词作为更深层的企业延深标签;最后,将本建模方法应用到企业画像系统中,优化标签精确概括能力。本发明普遍适用于标签延深建模和标签提取问题,充分考虑了标签延深的层次关系,可以有效的提高标签和企业画像系统的准确度。
-
公开(公告)号:CN114399251A
公开(公告)日:2022-04-26
申请号:CN202111667360.3
申请日:2021-12-30
Applicant: 淮阴工学院
IPC: G06Q10/08 , G06F16/9536 , G06K9/62 , G06F40/30 , G06Q30/06
Abstract: 本发明公开了基于语义网和簇偏好的冷链物流推荐方法及装置,首先对用户、车源和历史订单信息进行数据清洗和整理,按照其原有结构构建冷链物流知识图谱;接着使用知识表示的TransR算法将知识图谱的实体和关系嵌入到低维向量,并计算用户间的语义相似度;再利用社区发现算法对用户进行聚类获得用户簇;然后根据聚类结果构建用户簇偏好矩阵和偏好子图,利用余弦相似度计算出用户簇和各用户对应的相似度,取最相似的TopN为邻近集,依据邻近集中用户对车源的评分预测出用户簇对车源的评分,按降序排列得到评分推荐列表,同时计算用户簇偏好子图中车源实体和其他车源实体的相似度,按降序排列得到语义推荐列表;最后取语义推荐列表和评分推荐列表的交集作为最终推荐列表。该方法充分利用语义网的语义关系,深层次地挖掘用户兴趣,并利用用户簇偏好进行推荐,可以有效应对一车多单的情况,增加车辆满载率。
-
公开(公告)号:CN114398485A
公开(公告)日:2022-04-26
申请号:CN202111648377.4
申请日:2021-12-29
Applicant: 淮阴工学院
Abstract: 本发明公开了基于多视角融合的专家画像构建方法及装置。首先使用K‑means对专家数据集D1进行聚类及预处理后得到样本集D2,再将D2划分为多个样本子集,每个样本子集代表一种信息,分别选择BERT、BiGRU及CNN三种基分类器对样本集D2进行分类,得到不同的分类结果;接着,根据三种基分类器中的分类结果对基分类器赋权值,根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,根据实际需求选取分类结果;最后,获得模型最终的集成结果,使用词云图将分类结果可视化,进而构建专家画像。本发明提供了基于多视角融合的专家画像构建方法及装置,能够有效地融合不同分类的结果,解决专家画像建模中标签化建模不全面的问题。
-
公开(公告)号:CN112580332A
公开(公告)日:2021-03-30
申请号:CN202011303829.0
申请日:2020-11-19
Applicant: 淮阴工学院
IPC: G06F40/216 , G06F40/242 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 发明公开了一种基于标签分层延深建模的企业画像方法,首先对企业模糊标签进行统计和筛选,筛选出如批发业、零售业等不能完整概括企业特点的标签,使用Bert模型依据企业经营范围和企业标签对筛选出的标签进行分类延深;然后将企业名称、企业简介、经营范围信息整合,基于预先建立好的企业词库进行特征拓展,分别使用TextRank、TF‑IDF、LDA主题模型从综合信息中抽取关键词,将处理后的关键词作为更深层的企业延深标签;最后,将本建模方法应用到企业画像系统中,优化标签精确概括能力。本发明普遍适用于标签延深建模和标签提取问题,充分考虑了标签延深的层次关系,可以有效的提高标签和企业画像系统的准确度。
-
公开(公告)号:CN112269909B
公开(公告)日:2022-06-03
申请号:CN202010964492.1
申请日:2020-09-15
Applicant: 淮阴工学院
IPC: G06F16/951 , G06F16/9535 , G06F40/216 , G06F40/258 , G06F40/30
Abstract: 发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
-
公开(公告)号:CN113836903A
公开(公告)日:2021-12-24
申请号:CN202110943434.5
申请日:2021-08-17
Applicant: 淮阴工学院 , 江苏卓易信息科技股份有限公司
IPC: G06F40/258 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/00
Abstract: 本发明涉及企业画像和自然语言处理技术领域,公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法装置,将企业情境信息向量化后与企业文本向量拼接,得到融合企业情境信息的企业文本;构建主干网络进行模型训练,构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入Bert模型发现其隐藏特征,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征;使用主干网络指导枝干网络进行知识蒸馏和标签抽取。本发明使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。
-
公开(公告)号:CN113051914A
公开(公告)日:2021-06-29
申请号:CN202110382663.4
申请日:2021-04-09
Applicant: 淮阴工学院
IPC: G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多特征动态画像的企业隐藏标签抽取方法及装置,该方法首先对企业信息更新并使用K‑means对其聚类,将聚类后的企业文本信息打上标签形成若干个标签点簇;接着,将此文本信息作为多特征隐藏信息抽取的样本集,对其进行中文分词并引入企业词库进行特征拓展,传入Bert模型发现潜在特征;然后,利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;最后,动态更新企业信息传入多特征文本分类模型获得文本的隐藏标签信息。本发明普遍适用于企业画像标签建模和隐藏标签抽取问题,充分考虑了企业文本的上下文信息,可以有效发现企业文本中的隐藏标签,实现动态画像的标签实时更新。
-
公开(公告)号:CN112101028A
公开(公告)日:2020-12-18
申请号:CN202010824303.0
申请日:2020-08-17
Applicant: 淮阴工学院
IPC: G06F40/295 , G06F40/284 , G06F40/216 , G06F40/30 , G06F40/117 , G06F16/35
Abstract: 本发明公开了一种多特征双向门控领域专家实体抽取方法及系统。该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用BERT方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别,将抽取后的信息建立高质量的实体信息索引项返还WEB应用系统。本发明方法可有效抽取领域专家信息实体,充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题。
-
公开(公告)号:CN112101014A
公开(公告)日:2020-12-18
申请号:CN202010842606.5
申请日:2020-08-20
Applicant: 淮阴工学院
IPC: G06F40/284 , G06F40/289 , G06F40/117 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种混合特征融合的中文化工文献分词方法,首先构建化工科学文献语料库来训练中文分词任务;接着,利用BiLSTM和CNN提取并融合文档特征,结合边界特征构建条件随机场训练端到端中文分词模型;然后,开放模型接口,对用户输入文本进行分词;最后,通过ECharts渲染分词结果实现化工关键词可视化,系统接受用户反馈并进行处理。本发明将自然语言处理和深度学习方法应用于化工领域,通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果,解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。
-
公开(公告)号:CN113836903B
公开(公告)日:2023-07-18
申请号:CN202110943434.5
申请日:2021-08-17
Applicant: 淮阴工学院 , 江苏卓易信息科技股份有限公司
IPC: G06F40/258 , G06F18/214 , G06F18/2415 , G06N3/0442 , G06N3/042 , G06N3/045 , G06N3/08 , G06N5/025
Abstract: 本发明涉及企业画像和自然语言处理技术领域,公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法装置,将企业情境信息向量化后与企业文本向量拼接,得到融合企业情境信息的企业文本;构建主干网络进行模型训练,构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入Bert模型发现其隐藏特征,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征;使用主干网络指导枝干网络进行知识蒸馏和标签抽取。本发明使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。
-
-
-
-
-
-
-
-
-