-
公开(公告)号:DE102013205069B4
公开(公告)日:2021-09-16
申请号:DE102013205069
申请日:2013-03-22
Applicant: IBM
Inventor: BALDWIN DUANE MARK , BHOSALE NILESH PRABHAKAR , OLSON JOHN T , PATIL SANDEEP RAMESH
IPC: G06F16/00 , G06F16/215
Abstract: Verfahren für erhöhte Effizienz bei Inline-Deduplizierungen durch eine Prozessoreinheit in einer Datenverarbeitungsumgebung, wobei das Verfahren aufweist:Unterteilung eines Objekts in mehrere Datenblöcke festgelegter Größe, aus welchen Datenstichproben einer vorgegebenen festgelegten Größe entnehmbar sind;Berechnen von Hash-Werten der Datenstichproben aus Datenblöcken festgelegter Größe in n-ten Iterationen, die aus dem Objekt entnommen wurden, dessen Inline-Deduplizierung angefordert wurde;für jede der n-ten Iterationen Vergleichen der berechneten Hash-Werte für die Datenstichproben aus den Datenblöcken festgelegter Größe in einer n-ten Hash-Index-Tabelle mit einem entsprechenden Hash-Wert vorhandener Objekte in einem Speicher, wobei die n-te Hash-Index-Tabelle für jede der Datenstichproben erstellt wird, die zu den Datenblöcken festgelegter Größe gehören;Verlassen der n-ten Hash-Index-Tabelle, wenn während des Vergleichens eine Nichtübereinstimmung der berechneten Hash-Werte für eine der Datenstichproben entdeckt wird, wobei festgestellt wird, dass das Objekt bei einer Nichtübereinstimmung ein einzigartiges Objekt ist, und das Objekt gespeichert wird, undBerechnen eines Hash-Werts für das Objekt, wobei eine Hash-Index-Stammtabelle mit dem berechneten Hash-Wert für das Objekt aktualisiert wird;Berechnen eines Hash-Werts für das Objekt, wenn ein Dateiende des Objekts erreicht wurde und Prüfung, ob der berechnete Hash-Wert bereits in der Hash-Index-Stammtabelle enthalten ist;Verringern der zu speichernden Daten durch Erzeugen einer Verknüpfung mit einer Stammdatei, wenn der berechnete Hash-Wert bereits in der Hash-Index-Stammtabelle enthalten ist, ansonsten Aktualisierung der Hash-Index-Stammtabelle mit dem berechneten Hash-Wert für das Objekt:Berechnung eines Deduplizierungs-Verhältnisses und Vergleichen mit einem festgelegten Deduplizierungs-Schwellwert, wobei die Anzahl der n-ten Iterationen abnimmt und die Größe der Datenstichproben zunimmt, für den Fall, dass das Deduplizierungs-Verhältnis über dem Deduplizierungs-Schwellwert liegt, wobei die Anzahl der n-ten Iterationen zunimmt und die Größe der Datenstichproben abnimmt, für den Fall, dass das Deduplizierungs-Verhältnis unter dem Deduplizierungs-Schwellwert liegt.
-
公开(公告)号:DE102013205069A1
公开(公告)日:2013-10-10
申请号:DE102013205069
申请日:2013-03-22
Applicant: IBM
Inventor: BALDWIN DUANE MARK , BHOSALE NILESH PRABHAKAR , OLSON JOHN T , PATIL SANDEEP RAMESH
IPC: G06F17/30
Abstract: Es werden beispielhafte Ausführungsformen für eine erhöhte Effizienz bei Inline-Deduplizierungen in einer Datenverarbeitungsumgebung bereitgestellt. Bei einer Ausführungsform, hier nur beispielhaft angeführt, werden in n-ten Iterationen Hash-Werte von Datenstichproben aus Datenblöcken festgelegter Größe berechnet, die aus einem Objekt entnommen wurden, dessen Inline-Deduplizierung angefordert wurde. Für jede der n-ten Iterationen werden die berechneten Hash-Werte für die Datenstichproben aus den Datenblöcken festgelegter Größe in einer n-ten Hash-Index-Tabelle mit einem entsprechenden Hash-Wert vorhandener Objekte in dem Speicher verglichen. Die n-te Hash-Index-Tabelle wird verlassen, wenn während des Vergleichens eine Nichtübereinstimmung entdeckt wird. Es wird festgestellt, dass es sich bei der Nichtübereinstimmung um ein einzigartiges Objekt handelt, und sie wird gespeichert. Es wird ein Hash-Wert für das Objekt berechnet. Eine Hash-Index-Stammtabelle wird mit dem berechneten Hash-Wert für das Objekt und den berechneten Hash-Werten für das einzigartige Objekt aktualisiert.
-