一种面向用户生成内容的分布式采集方法与系统

    公开(公告)号:CN104735138A

    公开(公告)日:2015-06-24

    申请号:CN201510102980.0

    申请日:2015-03-09

    CPC classification number: H04L67/02 G06F17/30861

    Abstract: 本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

    一种基于微博平台的事件舆情信息提取方法及系统

    公开(公告)号:CN104615627A

    公开(公告)日:2015-05-13

    申请号:CN201410490602.X

    申请日:2014-09-23

    CPC classification number: G06F17/2765

    Abstract: 本发明涉及舆情事件提取技术,本发明公开了一种基于微博平台的事件舆情信息提取方法及系统,该方法包括:获取所述事件的关键词、起始时间、截止时间,并根据所述微博平台搜索服务的链接格式,构造待采样页面的页面链接;根据所述页面链接进行微博采样,生成样本微博,根据所述样本微博,计算所述事件的事件热度,并根据所述事件热度计算微博抓取周期;根据所述微博抓取周期,结合所述页面链接,获取与所述事件相关的微博页面。提取所述微博页面的微博信息,以完成提取所述事件的所述舆情信息。本发明获取事件舆情信息更全面而高效,能采集到实时的舆情信息。

    一种基于微博信息源的新闻认证方法及系统

    公开(公告)号:CN104572807A

    公开(公告)日:2015-04-29

    申请号:CN201410594515.9

    申请日:2014-10-29

    CPC classification number: G06F17/3089 G06Q50/01

    Abstract: 本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统,该方法包括:提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并根据以上三个比例,获取所述用户的社交关系可信度值;获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;获取微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;将以上三个可信度值进行线性加权求和作为综合可信度值。

    基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024A

    公开(公告)日:2015-04-08

    申请号:CN201410768704.3

    申请日:2014-12-11

    CPC classification number: G06F17/30616

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

    面向排序测度特征的图像匹配方法及系统

    公开(公告)号:CN104484869A

    公开(公告)日:2015-04-01

    申请号:CN201410646014.0

    申请日:2014-11-14

    CPC classification number: G06K9/66 G06F17/30047 G06F17/30247

    Abstract: 本发明提供一种面向排序测度特征的图像匹配方法,该方法首先获取待检测图像的排序测度特征和采样特征序列;对待检测图像的采样特征序列进行哈希,并基于哈希的结果来从图像库的哈希表中选择多个候选图像;然后通过计算该待检测图像的排序测度特征和各个候选图像的排序测度特征的相似度,来确定与该待检测图像匹配的图像。该方法对于图像的排序测度特征采用分级匹配的方法,提高了排序测度特征的匹配速度,使得该特征用于大规模图像匹配成为可能。而且可以通过控制采样分块的数目,调整排序测度特征哈希表的所需的内存开销,使之能用于不同内存大小的计算平台。

    用于压缩微透镜阵列采集的光场图像的方法和系统

    公开(公告)号:CN104469372A

    公开(公告)日:2015-03-25

    申请号:CN201410638332.2

    申请日:2014-11-06

    Inventor: 代锋 张勇东

    Abstract: 本发明提供一种用于压缩微透镜阵列采集的光场图像的方法和系统,所述方法包括:从光场图像中分解出多幅微图像,其中每幅微图像由组成该光场图像的所有宏像素块中相同位置的像素点组成;将所述多幅微图像进行排序并按该顺序合成为无损视频文件;以及采用基于视频编码的方法对所述视频文件进行压缩。本发明适用于压缩由微透镜阵列获取的光场图像,能够达到较高的压缩比,并且具有较好的压缩性能。

    字典学习、视觉词袋特征提取方法及检索系统

    公开(公告)号:CN104036012A

    公开(公告)日:2014-09-10

    申请号:CN201410287639.2

    申请日:2014-06-24

    CPC classification number: G06F17/30247

    Abstract: 本发明提供一种字典学习方法,包括:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用多个局部特征向量的第一分段构造第一数据矩阵,用多个局部特征向量的第二分段构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。本发明还提供了基于上述两个字典对图像局部特征进行分段稀疏表示的视觉词袋特征提取方法和相应的检索系统。本发明能够大幅减少内存占用,降低词表训练时间和特征提取时间,特别适合应用于移动终端。

    图像显著区域检测方法
    58.
    发明公开

    公开(公告)号:CN103514595A

    公开(公告)日:2014-01-15

    申请号:CN201210222279.9

    申请日:2012-06-28

    Abstract: 本发明提供一种图像显著区域检测方法,包括:步骤1、边缘检测,得到边缘图像;步骤2、计算像素点视觉显著值和空间权重值;其中,每种颜色的视觉显著值由这种颜色在所述边缘图像里的像素点数目除以这种颜色在原始图像里的像素点数目得到,每个像素点的视觉显著值等于它颜色的视觉显著值;其中,每个像素点的空间权重值由它离核心点的距离决定,离核心点越近,其空间权重值越大,离核心点越远,其空间权重值越小;步骤3、综合视觉显著值和空间权重值得到像素点的最终显著值;和步骤4、基于最终显著值,利用均值飘移算法确定显著区域的像素点。该方法提高显著区域像素的检出数量,避免对背景颜色交界处的误检测。

    一种人像图片检索方法和装置

    公开(公告)号:CN102332034B

    公开(公告)日:2013-10-02

    申请号:CN201110322247.1

    申请日:2011-10-21

    Inventor: 夏添 张勇东 黄磊

    Abstract: 本发明提供一种人像图片检索方法和装置,该方法包括下列步骤:1000)接收用户提交的查询;2000)提取所述查询的特征;3000)人像图片库中人像图片的相应特征,计算所述查询与人像图片的匹配程度以进行人像图片检索;其中,所述查询的特征和所述人像图片的特征均包括社会关系特征,所述社会关系特征体现了人像图片中人脸的位置关系。本发明的有益效果在于:鲁棒性强,且检索结果较现有方法的结果更为理想;计算简单,实现速度快。

    一种基于集成学习的模式训练和识别方法

    公开(公告)号:CN102521599A

    公开(公告)日:2012-06-27

    申请号:CN201110303362.4

    申请日:2011-09-30

    Abstract: 本发明提供一种基于集成学习的模式训练和识别方法,该模式训练方法包括:1)对训练样本进行词典学习,生成冗余词典;2)利用所述冗余词典对所述训练样本进行稀疏编码,获得每个训练样本的稀疏编码系数;3)根据所述稀疏编码系数对所有训练样本进行稀疏子空间划分;4)对于每个稀疏子空间内的训练样本进行子模型训练,获得用于分类的子模型。本发明的上述模式训练和识别方法可以取得更高的识别性能,同时能显著提高训练效率和检测效率。

Patent Agency Ranking