-
公开(公告)号:CN111026976B
公开(公告)日:2024-01-09
申请号:CN201911282150.5
申请日:2019-12-13
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/35 , G06F40/289 , G06Q50/00 , G06F18/23213
Abstract: 一种微博特定事件关注群体识别方法,通过改进PageRank算法对特定事件的重点用户进行识别,在对特定事件的重点关注用户进行识别的基础上,对重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,然后采用模糊c‑means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次。本发明的方法能够很好的识别出特定事件的重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。
-
公开(公告)号:CN112183094B
公开(公告)日:2023-06-16
申请号:CN202011209481.9
申请日:2020-11-03
Applicant: 北京信息科技大学
IPC: G06F40/289 , G06F40/253 , G06F40/216 , G06F40/30 , G06N3/049 , G06N3/084 , G06N3/0464
Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。
-
公开(公告)号:CN109325117B
公开(公告)日:2022-10-11
申请号:CN201810970734.0
申请日:2018-08-24
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F16/332 , G06F16/951 , G06F16/955 , G06F16/9535 , G06F40/242 , G06F40/289 , G06F40/30
Abstract: 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。
-
公开(公告)号:CN114742593A
公开(公告)日:2022-07-12
申请号:CN202210428659.1
申请日:2022-04-22
Applicant: 北京信息科技大学
Abstract: 本发明公开了一种物流仓储中心优化选址方法及系统,该方法包括:获取数据集,包括目标地区各行政区域的政务中心位置数据及经济适应量;采用K均值聚类法对数据集中数据点进行基于位置数据的聚类;构建物流仓储中心的选址模型,基于选址模型,对各聚类区域分别采用帝王蝶优化法优化选取物流仓储中心地址。本发明更能契合实际问题的解决,可进一步降低物流运输时间和成本。
-
公开(公告)号:CN114297404A
公开(公告)日:2022-04-08
申请号:CN202111637269.7
申请日:2021-12-29
Applicant: 北京信息科技大学
IPC: G06F16/36 , G06F16/901 , G06F16/903 , G06F40/295
Abstract: 本发明提供一种领域评审专家行为轨迹的知识图谱构建方法,采用自顶向下与自底向上相结合的方法完成构建。通过爬虫进行数据采集并预处理;定义领域本体,建立模式结构;利用自然语言处理技术进行知识抽取;针对同名专家的多类属性特征,提出基于地点一致性与时间重合性相结合的行为轨迹相似度匹配算法,结合编辑距离和余弦相似度确定消歧专家,实现知识融合;最后将知识存储在图数据库neo4j中,查找专家间建立的直接关系路径和间接关系路径,完成亲密度计算。本发明的方法同名专家消歧的F1值为93%,相比现有技术提高16%,解决了知识图谱中实体歧义问题。该知识图谱可有效表示专家行为轨迹及社会关系等,计算专家亲密度,为评审专家的遴选提供知识基础。
-
公开(公告)号:CN112183094A
公开(公告)日:2021-01-05
申请号:CN202011209481.9
申请日:2020-11-03
Applicant: 北京信息科技大学
IPC: G06F40/289 , G06F40/253 , G06F40/216 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。
-
公开(公告)号:CN109241380A
公开(公告)日:2019-01-18
申请号:CN201810970733.6
申请日:2018-08-24
Applicant: 北京信息科技大学
IPC: G06F16/951
Abstract: 本发明公开了一种基于网络爬虫和新浪API相结合的微博数据的采集方法,基于新浪API从微博名人榜获取种子用户及其对应的粉丝用户和关注用户,加入到种子列表;将种子列表转换为种子URL,并判断种子用户列表是否为空,若为空则结束,否则遍历种子列表,采用网络爬虫的方法,爬取种子用户的相关微博信息、微博评论信息和用户个人信息,并将微博评论用户加入到种子列表中。与现有技术相比,本发明通过将新浪API和针对新浪微博平台的网络爬虫相结合,既可以获取格式比较规范的微博数据,又能进行大规模的数据爬取,并且爬取的数据格式更加规范,噪声数据比较少,进而能够为开展微博中社会安全事件的侦测提供重要的数据基础。
-
公开(公告)号:CN108228853A
公开(公告)日:2018-06-29
申请号:CN201810027189.1
申请日:2018-01-11
Applicant: 北京信息科技大学
Abstract: 本发明公开一种微博谣言识别方法和系统,所述方法包括:获取微博文本特征、微博用户特征和微博传播特征;确定微博评论情感倾向、关键词频率和评论数差值;利用证据理论,根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度;根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量;将所述训练集微博特征向量作为分类器的输入,通过调节分类器的参数训练出最优分类模型;将所述测试集微博特征向量作为分类器的输入,利用所述最优分类模型对测试集中的微博进行分类,获得分类结果,提高了微博谣言识别的准确度。
-
-
-
-
-
-
-