一种基于SQL的文本数据统计实现方法

    公开(公告)号:CN105335479B

    公开(公告)日:2018-11-23

    申请号:CN201510657159.5

    申请日:2015-10-12

    Abstract: 本发明涉及一种基于SQL的文本数据统计实现方法,其技术特点是:对输入SQL语法进行解析;在结构化数据仓库中建立和子查询投影结构一致的临时表;识别全文索引引擎数据分布规则;将基于SQL的简单子查询翻译为全文索引引擎语法,并在全文索引引擎中执行;获取全文索引查询结果并将结果导入到结构化数据仓库引擎临时表中;完成查询结果导入过程,向数据仓库下发重写后的基于临时表SQL查询语句,并向客户端返回查询结果。本发明结合全文索引引擎和结构化数据仓库引擎的特点,实现对海量文本数据的基于通用SQL语言的统计分析方法,解决了传统方法统计功能薄弱和结构化数据仓库无法支持高效文本检索的问题,大大提高了文本数据统计分析的易用性。

    基于重复数据删除的共享方法

    公开(公告)号:CN104331525B

    公开(公告)日:2018-01-16

    申请号:CN201410717338.9

    申请日:2014-12-01

    Abstract: 本发明是一种基于重复数据删除的共享方法,将重复数据删除技术和NAS(Network Attached Storage)的共享功能进行深度的结合。本发明对存储的数据进行分块,为每个数据块建立局部索引,局部索引包含根据数据块指纹指定的数据块的存储分区和桶区;当NAS接收到客户端发送来的写请求时,对数据块建立局部索引并存储;当NAS接收到客户端发送来的读请求时,获取待读取数据块的指纹,根据数据块的局部索引,读取数据块。本发明方法可以对windows客户端、linux客户端提供例如:nfs/samba(cifs)/ftp等共享方式支持,可有效地将重复数据删除技术融合到后端存储进而实现在线消冗功能。

Patent Agency Ranking