一种基于链接网络的用户领域识别方法及其装置

    公开(公告)号:CN103761246B

    公开(公告)日:2017-02-08

    申请号:CN201310705515.7

    申请日:2013-12-19

    Abstract: 本发明提出一种基于链接网络的用户领域识别方法及其装置,属于数据发掘及复杂网络领域。装置包括数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。方法包括:步骤1,手工采集初始种子用户;步骤2,收集种子用户的关注用户;步骤3,构建链接网络,计算各关注用户对于各领域的隶属度;步骤4,按隶属度大小将用户排序;步骤5,为各领域构建领域原型用户集合;步骤6,收集待分类用户的关注用户;步骤7,计算待分类用户对于各领域的隶属度;步骤8,将领域隶属度大小排序;步骤9,加领域标签。本发明适用于多种社交网络平台,能够克服短文本的缺点,特别适合用户建模,个性化信息搜索和推荐等领域。

    一种面向网络数据的专题文档快速识别系统

    公开(公告)号:CN105843854A

    公开(公告)日:2016-08-10

    申请号:CN201610150817.6

    申请日:2016-03-16

    Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。

    一种基于链接网络的用户领域识别方法及其装置

    公开(公告)号:CN103761246A

    公开(公告)日:2014-04-30

    申请号:CN201310705515.7

    申请日:2013-12-19

    CPC classification number: G06F17/3089 G06F17/30705

    Abstract: 本发明提出一种基于链接网络的用户领域识别方法及其装置,属于数据发掘及复杂网络领域。装置包括数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。方法包括:步骤1,手工采集初始种子用户;步骤2,收集种子用户的关注用户;步骤3,构建链接网络,计算各关注用户对于各领域的隶属度;步骤4,按隶属度大小将用户排序;步骤5,为各领域构建领域原型用户集合;步骤6,收集待分类用户的关注用户;步骤7,计算待分类用户对于各领域的隶属度;步骤8,将领域隶属度大小排序;步骤9,加领域标签。本发明适用于多种社交网络平台,能够克服短文本的缺点,特别适合用户建模,个性化信息搜索和推荐等领域。

    一种利用表情符号对微博进行情感倾向分类的方法

    公开(公告)号:CN103761239A

    公开(公告)日:2014-04-30

    申请号:CN201310664725.6

    申请日:2013-12-09

    CPC classification number: G06F17/3089 G06F17/3071

    Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。

    一种基于数据挖掘的互联网产品调研系统

    公开(公告)号:CN103678564A

    公开(公告)日:2014-03-26

    申请号:CN201310659651.7

    申请日:2013-12-09

    CPC classification number: G06F17/30864

    Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。

    针对特定领域的新词发现方法

    公开(公告)号:CN105760366B

    公开(公告)日:2018-06-29

    申请号:CN201610150038.6

    申请日:2016-03-16

    Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

    一种报文信息源抽取方法及其系统

    公开(公告)号:CN103778200B

    公开(公告)日:2017-08-08

    申请号:CN201410010836.X

    申请日:2014-01-09

    Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。

Patent Agency Ranking