面向大数据环境的概要信息动态构建与查询方法及装置

    公开(公告)号:CN104657450B

    公开(公告)日:2018-09-25

    申请号:CN201510061345.2

    申请日:2015-02-05

    Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。

    一种面向分位数查询的概要数据动态分裂与维护方法

    公开(公告)号:CN105045806B

    公开(公告)日:2019-04-09

    申请号:CN201510304691.9

    申请日:2015-06-04

    Abstract: 本发明涉及一种面向分位数查询的概要数据动态分裂与维护方法。该方法首先对写入的数据项进行采样,构建q‑digit概要数据;然后按照q‑digit后序遍历的分位数查询规则,查询q‑digit概要数据中数据项的中间点;然后以中间点为基础逆序遍历q‑digit概要数据,建立分割路径,根据分割路径把q‑digit概要数据分裂成两个数据量近似均等的概要数据结构;分裂以后每个结构仍然是独立的q‑digit结构,可以正常接收并处理新到达的数据源。本发明可用于分布式环境下q‑digit概要数据的动态管理,有效支持大数据环境下概要数据的维护与管理,有效支持分位数查询与计算。

    一种面向分位数查询的概要数据动态分裂与维护方法

    公开(公告)号:CN105045806A

    公开(公告)日:2015-11-11

    申请号:CN201510304691.9

    申请日:2015-06-04

    CPC classification number: G06F17/30023

    Abstract: 本发明涉及一种面向分位数查询的概要数据动态分裂与维护方法。该方法首先对写入的数据项进行采样,构建q-digit概要数据;然后按照q-digit后序遍历的分位数查询规则,查询q-digit概要数据中数据项的中间点;然后以中间点为基础逆序遍历q-digit概要数据,建立分割路径,根据分割路径把q-digit概要数据分裂成两个数据量近似均等的概要数据结构;分裂以后每个结构仍然是独立的q-digit结构,可以正常接收并处理新到达的数据源。本发明可用于分布式环境下q-digit概要数据的动态管理,有效支持大数据环境下概要数据的维护与管理,有效支持分位数查询与计算。

Patent Agency Ranking