-
公开(公告)号:CN109543086A
公开(公告)日:2019-03-29
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN119740572A
公开(公告)日:2025-04-01
申请号:CN202411847838.4
申请日:2024-12-16
Applicant: 北京信息科技大学
IPC: G06F40/232 , G06F40/126 , G06F18/25 , G06N3/045 , G06N3/0464 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种多模态特征的并行交叉注意力融合方法及系统,该方法包括:S100:对错误检测模块检测的错误汉字,分别提取音频特征和字形特征;S200:使用双线性池化和非线性激活的方法获取音频特征和字形特征的联合表征特征;S300:利用并行交叉注意力融合网络对错误汉字的音频特征和字形特征分别进行融合;S400:将融合后的音频特征和字形特征与错误汉字对应的嵌入特征串接,再经线性变化与非线性融合,得到错误汉字的多模态特征。本申请利用并行交叉注意力融合网络对音频特征和字形特征进行融合,更关注形声字不同模态间的关联性,将本申请方法及系统应用于中文拼写纠错模型中,可进一步提高纠错准确率。
-
公开(公告)号:CN117787281A
公开(公告)日:2024-03-29
申请号:CN202311839688.8
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06N3/049 , G06N3/0464 , G06N3/08 , G06N3/045 , G06N3/0475 , G06N3/094 , G06F40/30 , G06F16/35
Abstract: 本发明公开了一种面向古籍的命名实体识别方法,涉及古籍命名实体识别技术领域,该方法针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER‑IPAL)。基于自建的古籍文本数据集,使用NEZHA‑TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,最后结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA‑GP提高了4.19%。
-
公开(公告)号:CN111597316B
公开(公告)日:2023-12-01
申请号:CN202010409957.7
申请日:2020-05-15
Applicant: 北京信息科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/9535 , G06F40/30
Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。
-
公开(公告)号:CN110489665B
公开(公告)日:2023-11-14
申请号:CN201910759011.0
申请日:2019-08-16
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/9535 , G06F16/951 , G06F40/289 , G06Q50/00 , G06N3/0464 , G06F18/22
Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%‑4%。
-
公开(公告)号:CN110543590A
公开(公告)日:2019-12-06
申请号:CN201910061262.1
申请日:2019-01-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/953 , G06F16/9535 , G06F16/35 , G06F16/33
Abstract: 本发明公开了一种微博突发事件的检测方法,包括:步骤1,对去除噪声和分词处理后的微博数据进行时间划分,获得与时间窗口对应的微博数据集;步骤2,计算各时间窗口包含的所有微博中各词w的突发词判断权重Wk(w),将Wk(w)大于突发词阈值的词作为突发词,从而获得各时间窗口的突发词集;步骤3,基于突发词集中两两突发词的耦合度,利用聚类算法对突发词集中突发词进行聚类,并基于聚类结果检测时间窗口的突发事件。和现有方法相比,本发明基于突发特征词的微博突发事件的检测方法在准确率和F值上有了很大的提升,即检测结果更准确。
-
公开(公告)号:CN110489665A
公开(公告)日:2019-11-22
申请号:CN201910759011.0
申请日:2019-08-16
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/9535 , G06F16/951 , G06F17/27 , G06Q50/00 , G06N3/04 , G06K9/62
Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%-4%。
-
公开(公告)号:CN109325117A
公开(公告)日:2019-02-12
申请号:CN201810970734.0
申请日:2018-08-24
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F16/332 , G06F16/951 , G06F16/955 , G06F16/9535 , G06F17/27 , G06F17/22
Abstract: 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。
-
公开(公告)号:CN117973368A
公开(公告)日:2024-05-03
申请号:CN202311837987.8
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F40/232 , G06F40/279 , G06N3/045 , G06F40/58 , G06N3/08 , G06F40/30
Abstract: 本发明公开了一种基于预训练模型的多音字读音消歧方法,涉及多音字消歧技术领域,首先联合跨语言互译模块获得多音字所在词语的另一种语言翻译,并作为额外特征输入模型以提升对词语的语义理解,然后使用判别微调中的层级学习率优化策略来适应神经网络不同层之间的学习特性,最后结合样本权重模块以解决多音字数据集的分布不均衡问题,在CPP基准数据集上对模型进行评测,取得了99.08%的正确率,性能优于其他基线模型。
-
公开(公告)号:CN117787260A
公开(公告)日:2024-03-29
申请号:CN202311840232.3
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F40/258 , G06N5/02 , G06N5/04 , G06F40/30 , G06N3/045 , G06N3/0442 , G06N3/0475 , G06F16/34 , G06N3/0499
Abstract: 本发明公开了一种基于自适应位置编码和知识推理的文本标题生成方法,涉及文本修改技术领域,该方法提出了一种新的位置编码机制结合知识推理的面向生成式标题任务的方法,并验证了该方法的有效性。通过引入自适应位置编码机制,APEG能够根据输入序列的长度动态地学习适合任务的位置表示,从而更好地捕捉不同位置的语义信息,提升知识推理模块的性能和模型的泛化能力。与传统的标题生成方法相比,引入的知识推理模块可以在标题生成过程中聚焦于原文的关键信息,同时保持生成内容的创新性和生成过程的可解释性,改善了生成式标题的质量。
-
-
-
-
-
-
-
-
-