-
公开(公告)号:CN104376053B
公开(公告)日:2017-12-22
申请号:CN201410611227.X
申请日:2014-11-04
Applicant: 南京信息工程大学
IPC: G06F17/30
Abstract: 本发明针对传统的数据集中存储单点查询的问题,公开了一种基于海量气象数据的存储与检索方法,利用Hadoop平台,通过对分布式非关系型数据库Hbase建立二级索引,并且将数据通过转换、迁移导入到云平台,实现海量数据的可靠存储与快速检索。本发明包括如下步骤:数据过滤;在Hbase中定义对应的表格式;建立二级索引;分情况进行数据导入;分情况进行数据检索。本发明既能实现数据的实时查询,也避免以往存储和维护大量数据所产生的高昂成本,在保证敏感数据安全的前提下能够更经济高效地实时查询海量气象数据。
-
公开(公告)号:CN104346459B
公开(公告)日:2017-10-27
申请号:CN201410629761.3
申请日:2014-11-10
Applicant: 南京信息工程大学
IPC: G06F17/30
Abstract: 本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:对数据集预处理;把每一个数据对象转换为特征空间的向量;分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率;根据平均术语频率计算术语在每个类中的分布差异度;将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合,计算每个术语在每个类中的权重,并取最大值为术语权重;将每个术语权重降序排序,选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进,使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现,并修正了传统卡方统计方法偏向于低频词的不足。
-
公开(公告)号:CN106991132A
公开(公告)日:2017-07-28
申请号:CN201710135123.X
申请日:2017-03-08
Applicant: 南京信息工程大学
IPC: G06F17/30
CPC classification number: G06F16/9024
Abstract: 本发明提供公开了一种基于图集重构与图核降维的图分类方法,包括如下步骤:1)对用于训练的图数据集进行频繁子图挖掘,对找出的频繁子图,以其在正负两类中出现的频度差的大小作为判别性指标,进行判别性子图筛选;2)用筛选出的具有判别性的频繁子图重构原图集;3)对重构好的新图集,采用Weisfeiler‑Lehman最短路径核方法获得用于描述图集中每两个图之间相似性的核矩阵,并利用训练图的类标签信息,采用KFDA方法对高维核矩阵降维;4)基于极限学习机对投影到低维向量空间的图数据进行训练,构建出分类器;5)规范化需要进行分类的图数据,将其投影到训练得到的低维空间,并把投影后的数据输入到分类器中,得到分类结果。本发明可直接对无类标签的图数据进行分类,且分类的准确性较高。
-
公开(公告)号:CN105554743A
公开(公告)日:2016-05-04
申请号:CN201510934008.X
申请日:2015-12-15
Applicant: 南京信息工程大学
Abstract: 本发明提供一种避免重叠圆形攻击的移动用户位置隐私的保护方法,涉及位置隐私保护领域。本发明首先让用户发送一个请求Q(用户当前的位置、查询结果数等)给中间代理设备;中间设备将用户的真实位置转化为一个圆形区域,并指定一个比用户需要的置信水平和查询结果数更大的值,然后将请求Q’发送给LBS服务器提供商;LBS采用查询处理方法找出满足条件的兴趣点,将满足条件的兴趣点放进集合V’,再将V’返回给中间设备;中间设备对V’进行筛选,将选出的结果返回给用户。本发明在用户查询服务器时有效地为避免了重叠圆形攻击,能更加准确地保护用户的位置隐私,适合移动用户查询周围兴趣点时对用户位置进行隐私保护。
-
公开(公告)号:CN104298771A
公开(公告)日:2015-01-21
申请号:CN201410596395.6
申请日:2014-10-30
Applicant: 南京信息工程大学
IPC: G06F17/30
Abstract: 本发明利用Hadoop/Hive分布式计算平台的高可靠性、高扩展性、高效性以及高容错性,公开了一种基于Hadoop和Hive的海量web日志数据的查询与分析方法。本发明包括以下步骤:对各个数据源的数据进行解析;将数据装载进数据仓库中;接收HiveQL语句;对接受语句进行优化,得到初步map结果;将接受语句转换成MapReduce任务执行并存储查询结果;数据分割;对数据进行分析挖掘;将数据装载进Mysql数据库中。本发明针对海量的web日志数据,实现精确地查询和数据分析,既能实现海量数据存储查询分析的可扩展性和高效性,也避免数据倾斜带来的job分布不均整体性能下降的问题。
-
公开(公告)号:CN104281956A
公开(公告)日:2015-01-14
申请号:CN201410583981.7
申请日:2014-10-27
Applicant: 南京信息工程大学
IPC: G06Q30/00
Abstract: 本发明涉及一种基于时间信息的适应用户兴趣变化的动态推荐方法,包括:构建用户-物品的显式评分矩阵;构建用户-物品的隐式评分矩阵;构建用户-物品综合评分矩阵;计算两两用户之间的相似性;获取与目标用户相似度靠前的K位用户作为目标用户的近邻集合;选取单调递减的指数时间函数作为评分权重函数,根据用户的评分所体现的兴趣变化趋势不同,计算评分权重函数中每位用户的权重因子;采用TOP-N推荐方法,将预测得分靠前的N项物品推荐给用户。本发明考虑用户兴趣随时间的变化,为其提供更加精确的个性化物品推荐服务。
-
-
-
-
-