一种基于语义词典的词语消歧方法

    公开(公告)号:CN102306144A

    公开(公告)日:2012-01-04

    申请号:CN201110200321.2

    申请日:2011-07-18

    Abstract: 一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。

    利用空间混合索引机制检测钓鱼网页的方法

    公开(公告)号:CN102662959B

    公开(公告)日:2014-07-16

    申请号:CN201210057731.0

    申请日:2012-03-07

    Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。

    基于半监督的垃圾图片过滤方法

    公开(公告)号:CN102663435B

    公开(公告)日:2013-12-11

    申请号:CN201210129234.7

    申请日:2012-04-28

    Abstract: 基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时,先提取文本和图片特征进行特征处理,利用已经得到的分类模型进行检测分类,并不断加入新的标签样本,训练分类器,提高分类精度同时误判率将大大降低。经大量实验数据检验证明,该方法构建了一种高效率垃圾邮件网页过滤系统,在保证高准确率的同时,处理效率有很大的提高,并显著减小网页检测时间。

    利用空间混合索引机制检测钓鱼网页的方法

    公开(公告)号:CN102662959A

    公开(公告)日:2012-09-12

    申请号:CN201210057731.0

    申请日:2012-03-07

    Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。

    利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

    公开(公告)号:CN102129568A

    公开(公告)日:2011-07-20

    申请号:CN201110112414.X

    申请日:2011-04-29

    Abstract: 利用改进的高斯混合模型分类器检测垃圾邮件的方法,利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征,对不变区域特征进行高斯混合模型拟合,使用期望最大化方法来进行权重、均值以及协方差矩阵的评估,具体为:对待检测数据集的图片进行标签,分为垃圾图片与正常图片;采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量;采用高斯混合模型对局部不变特征进行密度函数拟合,得到所有图片的均值与协方差矩阵;改进均值聚类算法,使其适用于对上一步骤中得出的特殊特征向量进行聚类,使用交叉熵作为分布之间相似度的衡量指标,实现基于高斯混合模型的均值聚类算法;利用基于高斯混合模型的均值聚类算法来构建分类器。

    利用图片文字与局部不变特征检测图像垃圾邮件的方法

    公开(公告)号:CN101887523A

    公开(公告)日:2010-11-17

    申请号:CN201010204722.0

    申请日:2010-06-21

    Abstract: 利用图片的局部不变特征检测图像型垃圾邮件的方法,利用了尺度不变特征转换算法来提取图片中垃圾信息的不变区域特征,提取嵌入图片中文字来对图片进行分类,从而形成图片的两种特征结合的特征向量库。经过实验能够提高垃圾邮件的召回率,节省程序运算时间和空间。用这种方法来提取图片中的不变区域特征,从而生成图片的特征向量,使用支持向量机分类器来训练与测试。本发明提出的利用嵌入图片中的文本信息,使用图形文字识别技术挖掘出图片中的文本字符串,将字符串作为图片的特征,使用贝叶斯分类器来训练与测试。每张图片的特征向量是由图片的局部不变特征与文本字符串构成的,使用堆栈方法综合两种分类器进行分类,来检测图像型垃圾邮件的实现方法。

    基于改进的支持向量机的软件缺陷优先级预测方法

    公开(公告)号:CN102637143B

    公开(公告)日:2014-12-10

    申请号:CN201210057888.3

    申请日:2012-03-07

    Abstract: 基于改进的支持向量机的软件缺陷优先级预测方法主要采用一种改进的支持向量机模型为缺陷优先级的预测建模,对缺陷报告的处理优先级进行判断和预测,步骤1)选取状态为已解决的,已关闭的,已确定的错误报告做为训练数据;步骤2)提取出我们需要的特征;步骤3)对所有样本赋以一个抽样权重在此样本上用支持向量机训练一个分类器对样本分类,步骤4)用得到的错误率去更新分布权值向量:对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值。步骤5)就这样依次迭代,最后我们得到的强分类器就是多个弱分类器的加权和。本发明用机器学习的发法训练出分类器,从而使缺陷优先级的确定自动化,减少人员和成本的消耗。

    由钓鱼网页查找目标网页的方法

    公开(公告)号:CN102629261B

    公开(公告)日:2014-07-16

    申请号:CN201210051171.8

    申请日:2012-03-01

    Abstract: 本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。

    远程打印电子商务平台时间估算方法

    公开(公告)号:CN102663523A

    公开(公告)日:2012-09-12

    申请号:CN201210129213.5

    申请日:2012-04-28

    Abstract: 为了节约打印时间,以按时提交打印材料,打印用户需要明确打印服务提供者的任务完成时间。本发明的目的在于估算出打印任务完成的时间,使打印用户可以寻找合适的打印服务提供者为其提供各类打印相关服务。利用打印平台对每项服务的估算时间以及服务之间的依赖关系,来估算订单完成所需要的时间,进而估算打印服务提供者完成当前所有订单所需要的时间,从而为打印用户从时间角度选出合适的打印服务提供者家,满足了实际打印市场需求。

Patent Agency Ranking