一种基于重复数据删除架构的倒排索引表示方法及系统

    公开(公告)号:CN106202154A

    公开(公告)日:2016-12-07

    申请号:CN201610464499.0

    申请日:2016-06-21

    Applicant: 南开大学

    CPC classification number: G06F17/30321

    Abstract: 一种基于重复数据删除架构的倒排索引表示方法及系统,适用于搜索引擎和社区网络数据处理。包括:1.遍历倒排索引中的倒排列表,识别并记录不同倒排列表间重复出现的序列模式。2.计算所述各序列模式的长度,并根据长短进行相应操作。依据序列模式的字典序,为所述各序列模式分配模式序号。3.根据所述序列模式对倒排索引进行归约,分别存储序列模式和归约后的倒排列表。4.差值处理:对序列模式中相邻文档序号进行差值计算。模式序号被表示为二元组,记录模式序号和相邻模式序号的位置偏移量。本发明能有效删除倒排索引中的重复数据,减少文档序号数目,提高倒排索引的压缩率,同时缩短搜索引擎的查询响应时间,提高用户体验。

    一种基于重复数据删除架构的倒排索引表示方法及系统

    公开(公告)号:CN106202154B

    公开(公告)日:2019-04-02

    申请号:CN201610464499.0

    申请日:2016-06-21

    Applicant: 南开大学

    Abstract: 一种基于重复数据删除架构的倒排索引表示方法及系统,适用于搜索引擎和社区网络数据处理。包括:1.遍历倒排索引中的倒排列表,识别并记录不同倒排列表间重复出现的序列模式。2.计算所述各序列模式的长度,并根据长短进行相应操作。依据序列模式的字典序,为所述各序列模式分配模式序号。3.根据所述序列模式对倒排索引进行归约,分别存储序列模式和归约后的倒排列表。4.差值处理:对序列模式中相邻文档序号进行差值计算。模式序号被表示为二元组,记录模式序号和相邻模式序号的位置偏移量。本发明能有效删除倒排索引中的重复数据,减少文档序号数目,提高倒排索引的压缩率,同时缩短搜索引擎的查询响应时间,提高用户体验。

Patent Agency Ranking