包括自动分类规则的数据分类流水线

    公开(公告)号:CN102414677A

    公开(公告)日:2012-04-11

    申请号:CN201080018349.8

    申请日:2010-04-14

    Applicant: 微软公司

    CPC classification number: G06F17/30115 G06F17/30082

    Abstract: 描述了通过可扩展的数据处理流水线(包括分类流水线)来处理数据项(例如,文件)以基于数据项的分类来促进对数据项进行管理的技术。发现模块定位要处理的数据项。独立分类流水线获取与每一个被发现的数据项相关联的元数据(属性),而一个或多个分类器基于元数据来分类数据项。独立的策略模块基于其分类将策略应用到每一个数据项。可以基于各种准则来调用多个分类器。预定义排序的分类器、权威性分类器和/或聚合机制处理任何分类冲突。可以提供不同类型的分类器,而每一个分类器都可以对应于自动分类规则;分类器可以直接改变属性(例如,设置分类)或将结果返回到用于改变属性的相对应的规则机制。

    经去重复文件的细粒度部分召回

    公开(公告)号:CN105009119A

    公开(公告)日:2015-10-28

    申请号:CN201480010936.0

    申请日:2014-02-26

    Applicant: 微软公司

    Abstract: 本公开涉及基于跟踪脏(写修改)范围(用户写)以消除或最小化读和写已优化相邻数据的方式,来部分召回经去重复文件的文件范围。范围的粒度不依赖于用于跟踪范围的任何文件系统粒度。在一个方面,提供了保留数据完整性和崩溃一致性的跟踪数据的懒惰转储清除在一个方面,还描述了在数据去重复系统正在优化打开文件的同时,支持在该文件上的细粒度部分召回。

    去重复的文件的部分召回

    公开(公告)号:CN102591944B

    公开(公告)日:2014-10-29

    申请号:CN201110444139.1

    申请日:2011-12-15

    Applicant: 微软公司

    CPC classification number: G06F17/30156

    Abstract: 本公开涉及去重复的文件的部分召回。本公开针对将文件从完全去重复状态改为部分去重复状态,在部分去重复状态中,一些文件数据在块存储中去重复,而一些被召回到文件中,即文件的存储卷中。诸如在文件系统过滤器中的部分召回机制跟踪(例如,经由文件重解析点中的位图)文件数据是维护在块存储中还是已经被召回到文件。按需从块存储中召回数据并将其提交(例如,刷新)给文件。还描述了通过使用跟踪信息来确定文件的哪些部分已经去重复到块存储中以便避免其进一步去重复处理来使文件有效地返回到完全去重复状态。

    用于数据去重复的可扩展流水线

    公开(公告)号:CN102567503A

    公开(公告)日:2012-07-11

    申请号:CN201110440182.0

    申请日:2011-12-15

    Applicant: 微软公司

    CPC classification number: G06F17/30091 G06F17/3007

    Abstract: 本发明描述了用于数据去重复的可扩展流水线。本公开涉及由模块化数据去重复流水线的各阶段/模块执行的数据去重复(优化)。在每个阶段,流水线允许替换、选择或扩展模块,例如,不同的算法可被用于基于正被处理的数据的类型来进行分块化或压缩。此流水线便于安全的数据处理、批处理、和并行处理。流水线是可基于反馈调整的,例如,通过选择模块来提升去重复质量、性能和/或吞吐量。还描述了例如基于文件和/或文件数据集的属性和/或统计属性和/或内部或外部反馈来对文件进行选择、过滤、排名、排序和/或编组,以进行去重复。

    去重复的文件的部分召回

    公开(公告)号:CN102591944A

    公开(公告)日:2012-07-18

    申请号:CN201110444139.1

    申请日:2011-12-15

    Applicant: 微软公司

    CPC classification number: G06F17/30156

    Abstract: 本公开涉及去重复的文件的部分召回。本公开针对将文件从完全去重复状态改为部分去重复状态,在部分去重复状态中,一些文件数据在块存储中去重复,而一些被召回到文件中,即文件的存储卷中。诸如在文件系统过滤器中的部分召回机制跟踪(例如,经由文件重解析点中的位图)文件数据是维护在块存储中还是已经被召回到文件。按需从块存储中召回数据并将其提交(例如,刷新)给文件。还描述了通过使用跟踪信息来确定文件的哪些部分已经去重复到块存储中以便避免其进一步去重复处理来使文件有效地返回到完全去重复状态。

    用于数据去重复的可缩放块存储

    公开(公告)号:CN102541751A

    公开(公告)日:2012-07-04

    申请号:CN201110385918.9

    申请日:2011-11-17

    Applicant: 微软公司

    CPC classification number: G06F17/30082 G06F17/30159

    Abstract: 本发明涉及用于数据去重复的可缩放块存储。可以以流映射和数据块的形式将数据流存储在块存储中。可以将与数据流相对应的数据块存储在块容器中,并且与该数据流相对应的流映射可指向该块容器中的数据块。多个流映射可以被存储在流容器中,并且可以以重复数据块不存在的方式来指向块容器中的数据块。在此提供了用于定位相关数据块在这些块容器中的存储的技术、用于定位存储在块容器中的数据块的技术、用于以可增强定位性并减少碎片整理的定位方式来将数据流存储在块容器中的技术、以及用于重新组织块存储中的已存储数据流的技术。

Patent Agency Ranking