倒排索引求交方法
    3.
    发明公开

    公开(公告)号:CN102136011A

    公开(公告)日:2011-07-27

    申请号:CN201110118161.7

    申请日:2011-05-09

    Applicant: 南开大学

    CPC classification number: G06F17/30622 G06F17/30631

    Abstract: 一种倒排索引求交方法。该方法包括:预处理,对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,求出左安全搜索距离、右安全搜索距离,保存所求出的线性回归信息。倒排索引求交,根据已保存的倒排列表的线性回归信息,确定要找的docID在该倒排列表中的安全搜索范围,然后在此范围内采用已有的某种搜索方法进行搜索。本发明的倒排索引求交方法可以缩小搜索范围,减少搜索时间,缩短搜索引擎的响应时间,提高用户体验。

    倒排索引压缩的预处理方法

    公开(公告)号:CN102081659A

    公开(公告)日:2011-06-01

    申请号:CN201110007170.9

    申请日:2011-01-14

    Applicant: 南开大学

    Abstract: 一种倒排索引压缩的预处理方法。所述的倒排索引压缩的预处理方法包括:对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,得到与该倒排列表等价的竖直离差列表;对每个竖直离差列表,将所有竖直离差向上取整,得到与该竖直离差列表等价的整数离差列表;对每个整数离差列表,求出最小值,同时将所有整数离差减去这个最小值,得到与该整数离差列表等价的非负整数离差列表。基于本发明的压缩算法具有较高的压缩比,提高了并行解压效率,可以更好地与集合归并方法结合。

    倒排索引压缩的预处理方法

    公开(公告)号:CN102081659B

    公开(公告)日:2012-08-22

    申请号:CN201110007170.9

    申请日:2011-01-14

    Applicant: 南开大学

    Abstract: 一种倒排索引压缩的预处理方法。所述的倒排索引压缩的预处理方法包括:对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,得到与该倒排列表等价的竖直离差列表;对每个竖直离差列表,将所有竖直离差向上取整,得到与该竖直离差列表等价的整数离差列表;对每个整数离差列表,求出最小值,同时将所有整数离差减去这个最小值,得到与该整数离差列表等价的非负整数离差列表。基于本发明的压缩算法具有较高的压缩比,提高了并行解压效率,可以更好地与集合归并方法结合。

Patent Agency Ranking