一种基于MapReduce的KNN文本分类方法

    公开(公告)号:CN104536830A

    公开(公告)日:2015-04-22

    申请号:CN201510012387.7

    申请日:2015-01-09

    Abstract: 本发明属于数据挖掘和云计算领域,具体涉及一种在Hadoop集群上,依据KNN算法和MapReduce编程模型特点,并行化的实现文本分类的基于MapReduce的KNN文本分类方法。本发明包括:数据预处理:其中包括分词、去停用词、词根还原三个过程;特征提取:对训练数据集进行处理,筛选出区分能力最强的特征项;运用KNN算法对测试数据集进行分类。本发明在Hadoop平台上实现的KNN算法具有较好的加速比和良好的扩展性,在数据量相同的情况下,算法的执行效率与集群节点数有关,一般节点越多处理数据的效率就越高。本发明在适当的节点上高效的完成了文本分类任务。

    一种面向微博文本流的突发关键词检测方法

    公开(公告)号:CN104166726A

    公开(公告)日:2014-11-26

    申请号:CN201410424542.1

    申请日:2014-08-26

    CPC classification number: G06F17/30864 G06F17/2705

    Abstract: 本发明涉及互联网信息管理领域,尤其涉及一种面向微博文本流的突发关键词检测方法。本发明包括:实时采集微博数据,针对实时微博数据流建立基于动态滑动窗口机制的消息会话模型;从消息会话模型中抽取用户信任属性,根据设定的信任窗口大小构建动态信任模型,计算用户的信任度;根据设定的消息窗口大小对实时微博消息流进行切分,融合用户信任度计算每个时间窗口中关键词的权重,形成突发关键词的权重序列;针对突发关键词的权重序列,采用基于动力学模型的突发关键词发现算法计算关键词的突发权值,如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词。此方法能够降低人类作息时间的影响,提高检测突发关键词的准确度。

    一种软件加速生命测试方法

    公开(公告)号:CN103383659A

    公开(公告)日:2013-11-06

    申请号:CN201310289399.5

    申请日:2013-07-11

    Abstract: 本发明涉及的是软件性能测试领域,具体涉及一种利用加速生命测试理论对产生老化现象的软件进行寿命测试的软件加速生命测试方法。软件加速生命测试方法包括:添加注入内存故障的代码;设置加速水平的压力值N为4,8,12,16,运行程序;记录失效时间TTF,保存数据;估计软件寿命的样本分布,建立合适的寿命和压力之间的关系,估计非加速情况下被测试系统的平均失效时间的分布。本发明部署和实施针对发生老化现象的软件的加速生命测试,通过耗时较短的加速生命测试得到加速情况下软件的寿命数据,计算非加速情况下软件的真实寿命,在更短的时间内,得到软件正常使用情况下寿命的概率分布。

    一种P2P节点存活性定期探测系统及方法

    公开(公告)号:CN101860529B

    公开(公告)日:2012-10-31

    申请号:CN201010153486.4

    申请日:2010-04-23

    Abstract: 本发明提供的是一种P2P节点存活性定期探测系统及方法。信息收集模块,收集最近一个探测周期内节点连接信息,并初始化路由表节点状态属性;信息处理模块根据路由表节点状态属性确定在下一个探测周期内哪些节点应该被探测,哪些该延迟探测;探测模块,当下一探测周期到来,向已确定需要探测的节点发出探测,并更改所有连接表内所有节点的标志位,继续收集返回的连接信息,更新路由表节点状态属性;回应模块,节点在收到探测信息后相应的进行回应,以便其他节点进行更新。本发明充分考虑了网络上节点之间通信的联系,对过去的连接信息进行统计并决定是否进行探测。减少了探测次数,节省了网络带宽。

    一种基于投票机制的WSN抗攻击节点定位方法

    公开(公告)号:CN101772013B

    公开(公告)日:2012-05-23

    申请号:CN201010101072.7

    申请日:2010-01-26

    Abstract: 本发明涉及一种基于投票机制的WSN抗攻击节点定位方法。使用典型的距离矢量交换协议,使网络中所有节点获得距信标节点的最小跳数;信标节点通过获得其他信标节点的位置和相隔跳距来计算网络平均每跳距离,并将其作为校正值广播至网络中;未知节点收集信标节点的位置参考信息,建立位置参考集,划分子集,在子集中利用三边测量法进行位置估算;未知节点对部署区域进行网格划分。将部署区域看成一个二维平面,划分成相同大小的网格,对每个网格进行标识;未知节点将参考子集中的位置估算映射到网格中,计算未知节点的位置坐标。本发明具有较强的抗攻击性,有效的解决了DV-Hop定位机制抗攻击性弱,定位误差大,精度低的问题。

    基于并行处理的TCP协议及其数据还原装置及方法

    公开(公告)号:CN101488960A

    公开(公告)日:2009-07-22

    申请号:CN200910071486.7

    申请日:2009-03-04

    Inventor: 王巍 杨武 苘大鹏

    Abstract: 本发明提供的是一种基于并行处理的TCP协议及其数据还原装置及方法。其装置包括网络报文捕获装置、TCP协议分析与重组装置、重组数据存取装置和应用层数据通知装置。其方法包括网络报文捕获步骤、TCP协议分析步骤、TCP数据重组步骤和应用层通知步骤。通过本发明可以利用单点计算平台即可满足大流量网络环境下的TCP协议数据分析需求,无需额外增加软硬件环境,具有很高的性能价格比;TCP数据重组策略可以根据实际环境进行定制,更为有效地利用系统资源,使其利用率达到最大化;最终实现的报文分析技术具有很强的移植性,可以满足目前绝大多数的运行环境配置。

    一种基于拓扑行为的垃圾邮件判定方法

    公开(公告)号:CN101299729A

    公开(公告)日:2008-11-05

    申请号:CN200810064806.1

    申请日:2008-06-25

    Inventor: 杨武 张乐君 王巍

    Abstract: 本发明提供的是一种垃圾邮件的判定方法。根据电子邮件的通讯关系,建立一个通讯关系拓扑图;对通讯关系拓扑图中,具有双向通讯关系的用户归并为一个类,建立垃圾邮件的判定模型;通过待检测的邮件中提取from邮箱地址和to邮箱地址,并判断其是否为垃圾邮件;对垃圾邮件判定模型进行更新。本发明的优点在于:只需要获取邮件的少量信息就可以快速、准确的对垃圾邮件进行判定,并且可以根据不同的情况部署到不同的位置:如:邮件服务器、网关、骨干网出入口等等。由于其处理速度快,因此可以在源头上遏制垃圾邮件的传播。

    一种网络信息系统的生存能力的仿真判定方法

    公开(公告)号:CN101187952A

    公开(公告)日:2008-05-28

    申请号:CN200710144819.5

    申请日:2007-12-14

    Abstract: 本发明提供的是一种网络信息系统的生存能力的仿真判定方法。建立系统的工作流模型,它描述了理想无失效发生时系统的结构和性能的情况;对可能出现失效的资源建立失效模型和容错模型,用它来描述组件失效的过程及失效后的反应;将前面的两者相结合建立信息系统生存性模型,它描述了在一个特定的网络环境中某些资源失效后对整个系统所带来的影响;采用模拟的方法在合成模型中注入安全事件,具体包括组件的失效率、入侵事件对组件的影响,以及组件可生存属性;通过对SPN中可达状态信息的统计,计算信息系统服务生存性参数,对信息系统生存能力进行评估。本发明可根据网络信息系统构成部件的生存属性,分析其在具体应用环境下服务的完成质量。

    一种基于属性补全的社交网络社区搜索方法、系统及存储介质

    公开(公告)号:CN118568361A

    公开(公告)日:2024-08-30

    申请号:CN202410508782.3

    申请日:2024-04-26

    Abstract: 本发公开了一种基于属性补全的社交网络社区搜索方法、系统及存储介质。本发明针对顶点属性信息缺失问题,通过考虑顶点多类型对属性补全的影响以及借助元路径引导的随机游走获取优质高阶邻居提升属性补全的性能;在此基础上,根据上述属性补全方法,通过属性约束描述个性化搜索需求,通过关系约束描述不同类型顶点之间的细粒度连接需求,设计并实现了多种属性关系社区搜索算法。本发明考虑属性补全的社区搜索能够提高社区搜索的性能,考虑属性约束社区搜索既能够完成个性化的搜索需求又能提高社区成员的属性相似度,可部署在各服务器机房后端,可广泛应用于社交网络场景下网络舆论监管等应用领域。

Patent Agency Ranking