-
公开(公告)号:CN103064842B
公开(公告)日:2016-01-20
申请号:CN201110319550.6
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种信息订阅处理装置和一种信息订阅处理方法,其中,信息订阅处理装置300包括:分词处理模块302,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;索引管理模块304,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;匹配处理模块306,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过本发明,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
-
-
公开(公告)号:CN103064842A
公开(公告)日:2013-04-24
申请号:CN201110319550.6
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种信息订阅处理装置和一种信息订阅处理方法,其中,信息订阅处理装置300包括:分词处理模块302,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;索引管理模块304,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;匹配处理模块306,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过本发明,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
-
公开(公告)号:CN103064840A
公开(公告)日:2013-04-24
申请号:CN201110319548.9
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提出一种索引装置,包括:高频词处理模块,在文档中的当前词为高频词时,根据所述当前词邻接的前侧词和/或后侧词,对所述当前词进行扩展;索引建立模块,根据扩展得到的新词和所述文档建立索引。在该技术方案中,通过对文档关键词中的高频词进行扩展处理,降低了关键词中高频词的数量,避免了利用大量高频词建立索引而导致过高的检索量和过长的检索时间。本发明还提供索引方法、检索装置、检索方法和检索系统。
-
公开(公告)号:CN103064846B
公开(公告)日:2016-08-31
申请号:CN201110319565.2
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供检索装置和检索方法,其中一种检索装置,用于信息检索及搜索引擎系统,包括:最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口;全局邻近度计算模块,根据最小命中窗口的命中窗口长度,以及最小命中窗口中多个关键词的逆序对数,计算出最小命中窗口的扩展命中窗口长度,作为多个关键词的全局邻近度;位置相关性计算模块,根据全局邻近度,计算出多个关键词在文档中的位置相关性;结果生成模块,根据位置相关性,对文档进行排序,并生成检索结果。通过本发明,实现了对全局邻近度的改进,基于该改进的全局邻近度,可以计算出合理的位置相关性,以更精确以及高效地进行检索。
-
公开(公告)号:CN103064847A
公开(公告)日:2013-04-24
申请号:CN201110319568.6
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提出了一种索引装置,包括:数字串切分模块,对文档中的数字串进行切分;索引建立模块,根据切分后得到的新数字串和所述文档建立索引。在该技术方案中,提出对文档中的数字串进行切分,将切分后的新数字串作为关键词建立索引,可以合理地控制索引结构中的关键词指向的文件链表的长度,以及关键词列表的长度,即能够控制数字串建立的索引大小在计算机内存可接受的范围内,可以提高数字串检索速度。本发明还提出索引方法、检索装置、检索方法和检索系统。
-
公开(公告)号:CN103064846A
公开(公告)日:2013-04-24
申请号:CN201110319565.2
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供检索装置和检索方法,其中一种检索装置,用于信息检索及搜索引擎系统,包括:最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口;全局邻近度计算模块,根据最小命中窗口的命中窗口长度,以及最小命中窗口中多个关键词的逆序对数,计算出最小命中窗口的扩展命中窗口长度,作为多个关键词的全局邻近度;位置相关性计算模块,根据全局邻近度,计算出多个关键词在文档中的位置相关性;结果生成模块,根据位置相关性,对文档进行排序,并生成检索结果。通过本发明,实现了对全局邻近度的改进,基于该改进的全局邻近度,可以计算出合理的位置相关性,以更精确以及高效地进行检索。
-
公开(公告)号:CN106484671A
公开(公告)日:2017-03-08
申请号:CN201510526945.1
申请日:2015-08-25
Applicant: 北京中搜网络技术股份有限公司
Abstract: 本发明提供一种时效性查询内容的识别方法,通过建立时效性文档资源的索引、统计查询内容在所述时效性文档资源中出现的次数及对所述查询内容进行时效性判断,进而识别出时效性查询内容。本发明提出的识别方法,能够快速且全面的识别出时效性查询内容;其对资源要求较低,且对常见查询和长尾查询都适用;同时增加召回率;并对处于爆发下降期的时效性查询仍能识别;能给出查询的时效性强度,实现了后续模块能够根据其时效性强度采用不同的策略;保证了识别的准确性及可靠性。
-
公开(公告)号:CN105989057A
公开(公告)日:2016-10-05
申请号:CN201510063912.8
申请日:2015-02-06
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种基于串操作的数字类检索串的转换方法,该方法包括以下步骤:I、接收所述检索串;II、判断所述检索串的类型;III、将汉语数字检索串转换为阿拉伯数字检索串;IV、将阿拉伯数字检索串转换为汉语数字检索串;V、对转换后的数字串优化后输出。本发明提供的使用完全基于串的汉语数字和阿拉伯数字直接相互转换算法,解决了输入串的长度受限的问题,扩展了数字检索串扩展的适用范围,并且提高了二者之间转换的效率。
-
公开(公告)号:CN103064845B
公开(公告)日:2016-05-18
申请号:CN201110319563.3
申请日:2011-10-20
Applicant: 北京中搜网络技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种网页信息处理装置和一种网页信息处理方法,其中,网页信息处理装置100包括:网页处理模块102,将网页处理为DOM结构;权重计算模块104,遍历DOM结构的节点,根据DOM结构中的节点的特征,计算节点的权重;结果筛选模块106,根据文本节点的样式权重和内容权重,得到文本节点的标题权重,以判断是否将文本节点的内容作为候选标题,并从文本节点的内容中提取时间串,作为候选发布时间;结果生成模块108,从所有候选标题和所有候选发布时间,选出网页的信息标题和信息发布时间。通过本发明,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
-
-
-
-
-
-
-
-
-