一种分布式文件系统中文件的快速删除方法

    公开(公告)号:CN104156474A

    公开(公告)日:2014-11-19

    申请号:CN201410422309.X

    申请日:2014-08-25

    CPC classification number: G06F17/30117 G06F17/30194

    Abstract: 本发明提供了一种分布式文件系统中文件的快速删除方法,当删除分布式文件系统中的文件时,先在元数据服务器上将对应的元数据信息加入到回收目录下,然后返回删除成功,元数据服务器定时扫描回收目录,将其中文件对应的数据对象重命名为新的对象名,该对象名为系统中下一批待分配给新文件的文件对象,这样在有新文件数据写入时,可以直接使用刚回收文件重命名的对象,在读取文件时,按元数据中记录的文件大小判断有效数据的大小,从而达到不真正删除磁盘对象,且不影响正常读写,而将文件快速删除的目的。本发明在绝大多数情况下不需要删除文件数据磁盘对象,真正做到了文件的快速删除,且不产生磁盘数据IO,从而不影响正常数据的读写IO。

    一种短信文本的分类方法和系统

    公开(公告)号:CN104123393A

    公开(公告)日:2014-10-29

    申请号:CN201410394927.8

    申请日:2014-08-12

    CPC classification number: G06F17/30705 G06F17/30194

    Abstract: 本发明公开了一种短信文本的分类方法和系统包括:计算分布式文件系统HDFS上所有短信样本的特征向量;判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分类;保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库;将第一类库转换为流式计算系统支持的第二类库;流式计算系统根据第二类库对待分类短信进行分类。本发明能够对短信文本进行实时分类。

    一种基于空间关联的分布式数据装置、方法及系统

    公开(公告)号:CN103995861A

    公开(公告)日:2014-08-20

    申请号:CN201410208628.0

    申请日:2014-05-16

    Applicant: 罗敬宁

    Inventor: 罗敬宁

    CPC classification number: G06F17/30194 G06F17/30091

    Abstract: 本发明涉及数据系统技术领域,具体的讲是一种基于空间关联的分布式数据装置、方法及系统。其中,存储方法包括将具有空间特性的数据划分为多个网格,所述网格具有该网格所在空间中的数据;根据网格空间位置的关联关系,将所述网格中的数据存储于复数个存储节点。本发明的有益效果在于对于巨量的各种类型空间数据,可以实现高并行度的数据写入和读取,保证按照空间属性分割的数据可以均衡的、保持空间关联的、安全的存储到各个节点,同时,系统具有极大的扩展能力,而且系统扩展与性能是线性相关的,系统不会出现大量闲置节点,或者I/O瓶颈节点,实现了分布式系统设计的初衷。

    MapReduce计算框架中的高性能排序方法

    公开(公告)号:CN103995827A

    公开(公告)日:2014-08-20

    申请号:CN201410145069.3

    申请日:2014-04-10

    Applicant: 北京大学

    CPC classification number: G06F17/30094 G06F3/067 G06F17/30194

    Abstract: 本发明涉及一种MapReduce计算框架中的高性能排序方法。该方法在Map阶段按照partition分别构建缓冲链,移除partition本身进行排序的需要,并且对于每一个partition数据将按照块进行组织,降低了数据在内存中的拷贝以及文件IO方面的代价;在Map阶段不执行排序操作,在Reduce阶段以一个较大的缓冲池作为一次排序的基本单位,使得在排序的归并阶段总的归并路数是一个用户可调优的值。本发明通过一种混合的内存排序算法,优化了MapReduce框架中排序的两个阶段,基本消除了排序对于计算框架的性能影响,进而提升了计算框架的资源有效性,降低了集群的整体资源消耗。

    一种HDFS中大数据迁移完整性验证的方法

    公开(公告)号:CN103971066A

    公开(公告)日:2014-08-06

    申请号:CN201410212726.1

    申请日:2014-05-20

    CPC classification number: G06F21/64 G06F17/30194

    Abstract: 本发明提供一种HDFS中大数据迁移完整性验证的方法,其具体实现过程如下:获取原始HDFS文件及目录结构详细信息和迁移后的新HDFS文件信息;对原始文件信息以及新文件信息分片处理;输出新旧文件信息的对比验证和验证结果。该一种HDFS中大数据迁移完整性验证的方法和现有技术相比,不需要进行程序的编译、打包,只需要简单的脚本即可完成验证;更加突出大数据灵活、便捷的优势,使得用户可以非常快速简便的找到可能存在的不完整的数据;适用范围广泛,该方法适用于多种HDFS环境,实用性强。

    针对大规模数据集交叉比较的分布式计算系统和方法

    公开(公告)号:CN103942235A

    公开(公告)日:2014-07-23

    申请号:CN201310178513.7

    申请日:2013-05-15

    Applicant: 张一凡

    Inventor: 张一凡

    CPC classification number: G06F17/30194 G06F9/448 G06F9/5083

    Abstract: 本发明涉及一种针对大规模数据集交叉比较的分布式计算系统,包括交叉比较编程模型、主结点、编程接口和基于异构分布式机群的后端分布式处理框架。该分布式计算系统旨在应用分布式计算环境高效处理满足数据集交叉比较模式的计算问题。本发明通过提供用户直观的交叉比较编程模型,帮助用户将待处理计算过程进行抽象简化,实现了对各种不同交叉比较计算问题的统一支持;提供用户简洁的编程接口,帮助用户开发串行交叉比较程序,用户无需掌握并行编程知识;系统隐藏了并行计算的实现细节,用户无需掌握系统内部结构,降低了系统的使用难度。此外,本发明提出的交叉比较编程模型及接口与硬件无关,可以方便的在不同分布式机群环境中实现。

    一种面向大规模数据的索引方法及其系统

    公开(公告)号:CN103870456A

    公开(公告)日:2014-06-18

    申请号:CN201210526354.0

    申请日:2012-12-07

    CPC classification number: G06F17/30194 G06F17/30094

    Abstract: 本发明公开了一种面向大规模数据的索引方法,包括构建索引结构阶段与查询阶段;构建索引结构阶段中根据原始数据生成索引结构;查询阶段根据索引结构获得相应的原始数据;原始数据中包括至少一个由数据元组组成的数据块;索引结构包括叶子层索引和根层索引,叶子层索引包含一层叶子层索引文件,叶子层索引文件中包含至少一个叶子层数据块;根层索引包括中间层索引,中间层索引包含至少一层中间层索引文件,中间层索引文件中包含至少一个中间层数据块。本发明解决了利用MapReduce框架查询大数据时响应时间过慢等问题,通过在MapReduce框架中引入索引机制来提升查询性能。本发明还公开了一种面向大规模数据的索引系统。

    中继服务器以及中继通信系统

    公开(公告)号:CN101471843B

    公开(公告)日:2014-06-18

    申请号:CN200810187906.3

    申请日:2008-12-23

    Inventor: 谷本好史

    Abstract: 本发明提供一种在终端之间共享资源的情况下,容易取得资源信息和资源实体的同步的中继服务器和中继通信系统。在发出了共享资源信息的同步指示的情况下,中继服务器根据该共享资源信息,向各个资源共享终端发送该同步指示。接收到同步指示的各个资源共享终端在该共享资源信息中包含本机是所有者的资源的情况下,将资源信息与资源实体进行比较。其结果,在资源信息与资源实体不一致的情况下,把该资源信息更新为最新的信息,并向中继服务器(1)发送包含该资源信息的共享资源信息的更新指示。这样,能够利用一次的同步指示,进行网络整体的资源信息的同步。

    文件上传系统及方法
    100.
    发明公开

    公开(公告)号:CN103856521A

    公开(公告)日:2014-06-11

    申请号:CN201210510662.4

    申请日:2012-12-04

    CPC classification number: G06F17/30194

    Abstract: 一种文件上传方法,该方法包括:获取每台服务器上的运行参数;根据所述获取的运行参数,计算每台服务器的优先权系数;创建优先权列表,将所计算的优先权系数保存至所创建的优先权列表中,并将所创建的优先权列表保存到数据库中;当用户上传文件时,从数据库中读取优先权列表中的优先权系数,按照优先权系数选择服务器上传文件。本发明还提供一种文件上传系统。通过本发明可以使得负载最轻的服务器最先上传文件,如此一来,平衡了服务器之间的使用,提高了文件上传的效率。

Patent Agency Ranking