Hadoop jest szeroko stosowany do masowego przechowywania danych. Mimo że jest bardzo odporny na awarie, skalowalny i dziala na standardowym sprzęcie, nie zapewnia wydajnego i zoptymalizowanego rozwiązania do przechowywania danych. Gdy użytkownik przesyla pliki o tej samej zawartości do Hadoop, wszystkie pliki są przechowywane w HDFS (Hadoop Distributed File System), nawet jeśli zawartośc jest taka sama, co prowadzi do powielania treści, a tym samym do marnowania przestrzeni dyskowej. Deduplikacja danych to proces mający na celu zmniejszenie wymaganej pojemności pamięci, ponieważ przechowywane są tylko unikalne instancje danych. Proces deduplikacji danych jest szeroko stosowany w serwerach plik w, systemach zarządzania bazami danych, pamięciach kopii zapasowych i wielu innych rozwiązaniach pamięci masowej. Odpowiednia strategia deduplikacji pozwala na wystarczające wykorzystanie przestrzeni dyskowej w ramach ograniczonych urządzeń pamięci masowej. Hadoop nie zapewnia rozwiązania w zakresie deduplikacji danych. W niniejszej pracy modul deduplikacji zostal zintegrowany z frameworkiem Hadoop w celu uzyskania zoptymalizowanego przechowywania danych.
ThriftBooks sells millions of used books at the lowest everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15. ThriftBooks.com. Read more. Spend less.