Kultura jest wspaniała!

Na czym opierają się trzy fundamentalne etapy deduplikacji plików?

Proces deduplikacji danych komputerowych, oznacza usuwanie powtarzających się danych i może odbyć się na trzech najważniejszych poziomach: bajtu, bloków i plików. Każdy z wymienionych poziomów określa inny typ fragmentu danych.




Są one później za pomocą systemu kontrolowane pod kątem występowania duplikacji. Do generowania unikatowych identyfikatorów służy wzorzec funkcji skrótu. Dotyczy to każdej poddanej analizie części danych. Wymienione identyfikatory składowane są w indeksie, a potem stosowane są podczas procesu deduplikacji. Naturalnie zduplikowane fragmenty posiadają identyczne identyfikatory funkcji skrótu. W teorii im dokładniejsza jest analiza, to tym lepszy jest współczynnik deduplikacji. W rzeczywistości jednak wszystkie wspomniane etapy w każdym przypadku posiadają swe plusy i minusy. Dla przykładu deduplikacja na poziomie plików jest w każdym przypadku najprostsza przy wdrożeniu.


PIT


efekty


Co ważne, taka forma deduplikacji nie jest zbyt obciążająca dla serwera, gdyż generowanie funkcji skrótu jest relatywnie szybkie. Niestety minusem tego typu operacji jest to, że jeżeli jakiś plik będzie w dowolny sposób zmieniony, to przekształca się także identyfikator funkcji skrótu. W rezultacie obydwie wersje plików zostaną na serwerze zapisane. Deduplikacja na szczeblu bloków opiera się oczywiście na porównaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Podobnej mocy potrzebuje deduplikacja na szczeblu bajtów. Jest to poniekąd w najwyższym stopniu podstawowy sposób porównywania danych.




Wykonuje się to, jak jego nazwa wskazuje, bajt po bajcie. Przeprowadzana w ten sposób analiza jest naturalnie bardzo dokładna. Jakimś mankamentem może być czas przeprowadzania takiego typu deduplikacji.

Opublikowany przez Administrator w dniu 2018-05-08 15:16:35
Tagi: wynik, czas, części, pomoc, sposób