-
公开(公告)号:CN102306144A
公开(公告)日:2012-01-04
申请号:CN201110200321.2
申请日:2011-07-18
Applicant: 南京邮电大学
IPC: G06F17/27
Abstract: 一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。
-
公开(公告)号:CN102662959B
公开(公告)日:2014-07-16
申请号:CN201210057731.0
申请日:2012-03-07
Applicant: 南京邮电大学
Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。
-
-
公开(公告)号:CN102662959A
公开(公告)日:2012-09-12
申请号:CN201210057731.0
申请日:2012-03-07
Applicant: 南京邮电大学
Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。
-
公开(公告)号:CN102129568A
公开(公告)日:2011-07-20
申请号:CN201110112414.X
申请日:2011-04-29
Applicant: 南京邮电大学
IPC: G06K9/62
Abstract: 利用改进的高斯混合模型分类器检测垃圾邮件的方法,利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征,对不变区域特征进行高斯混合模型拟合,使用期望最大化方法来进行权重、均值以及协方差矩阵的评估,具体为:对待检测数据集的图片进行标签,分为垃圾图片与正常图片;采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量;采用高斯混合模型对局部不变特征进行密度函数拟合,得到所有图片的均值与协方差矩阵;改进均值聚类算法,使其适用于对上一步骤中得出的特殊特征向量进行聚类,使用交叉熵作为分布之间相似度的衡量指标,实现基于高斯混合模型的均值聚类算法;利用基于高斯混合模型的均值聚类算法来构建分类器。
-
公开(公告)号:CN101887523A
公开(公告)日:2010-11-17
申请号:CN201010204722.0
申请日:2010-06-21
Applicant: 南京邮电大学
Abstract: 利用图片的局部不变特征检测图像型垃圾邮件的方法,利用了尺度不变特征转换算法来提取图片中垃圾信息的不变区域特征,提取嵌入图片中文字来对图片进行分类,从而形成图片的两种特征结合的特征向量库。经过实验能够提高垃圾邮件的召回率,节省程序运算时间和空间。用这种方法来提取图片中的不变区域特征,从而生成图片的特征向量,使用支持向量机分类器来训练与测试。本发明提出的利用嵌入图片中的文本信息,使用图形文字识别技术挖掘出图片中的文本字符串,将字符串作为图片的特征,使用贝叶斯分类器来训练与测试。每张图片的特征向量是由图片的局部不变特征与文本字符串构成的,使用堆栈方法综合两种分类器进行分类,来检测图像型垃圾邮件的实现方法。
-
公开(公告)号:CN101819637A
公开(公告)日:2010-09-01
申请号:CN201010139946.8
申请日:2010-04-02
Applicant: 南京邮电大学
IPC: G06K9/66
Abstract: 利用图片的局部不变特征检测图像型垃圾邮件的方法是一种利用健壮特征的加速提取算法来提取图片中的垃圾信息的不变区域特征,从而生成图片的特征向量,用最大可能性算法估计高斯混合模型的参数,来训练高斯混合模型分类器。经过实验能够提高垃圾邮件的召回率,节省程序运算时间和空间。获得基于高斯混合模型的分类器。对图像型垃圾邮件进行检测的实现方法,整个方法包括图片特征的提取,高斯混合模型参数的估计,图像型邮件的检测三个模块。
-
公开(公告)号:CN102637143B
公开(公告)日:2014-12-10
申请号:CN201210057888.3
申请日:2012-03-07
Applicant: 南京邮电大学
IPC: G06F11/36
Abstract: 基于改进的支持向量机的软件缺陷优先级预测方法主要采用一种改进的支持向量机模型为缺陷优先级的预测建模,对缺陷报告的处理优先级进行判断和预测,步骤1)选取状态为已解决的,已关闭的,已确定的错误报告做为训练数据;步骤2)提取出我们需要的特征;步骤3)对所有样本赋以一个抽样权重在此样本上用支持向量机训练一个分类器对样本分类,步骤4)用得到的错误率去更新分布权值向量:对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值。步骤5)就这样依次迭代,最后我们得到的强分类器就是多个弱分类器的加权和。本发明用机器学习的发法训练出分类器,从而使缺陷优先级的确定自动化,减少人员和成本的消耗。
-
公开(公告)号:CN102629261B
公开(公告)日:2014-07-16
申请号:CN201210051171.8
申请日:2012-03-01
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。
-
公开(公告)号:CN102663523A
公开(公告)日:2012-09-12
申请号:CN201210129213.5
申请日:2012-04-28
Applicant: 南京邮电大学
Abstract: 为了节约打印时间,以按时提交打印材料,打印用户需要明确打印服务提供者的任务完成时间。本发明的目的在于估算出打印任务完成的时间,使打印用户可以寻找合适的打印服务提供者为其提供各类打印相关服务。利用打印平台对每项服务的估算时间以及服务之间的依赖关系,来估算订单完成所需要的时间,进而估算打印服务提供者完成当前所有订单所需要的时间,从而为打印用户从时间角度选出合适的打印服务提供者家,满足了实际打印市场需求。
-
-
-
-
-
-
-
-
-