Hadoop est largement utilis pour le stockage massif de donn es distribu es. M me s'il est hautement tol rant aux pannes, volutif et fonctionne sur du mat riel standard, il ne fournit pas de solution de stockage de donn es efficace et optimis e. Lorsque l'utilisateur t l charge des fichiers avec le m me contenu dans Hadoop, celui-ci stocke tous les fichiers dans HDFS (Hadoop Distributed File System), m me si le contenu est identique, ce qui entra ne une duplication du contenu et donc un gaspillage d'espace de stockage. La d duplication des donn es est un processus qui permet de r duire la capacit de stockage requise, car seules les instances uniques de donn es sont stock es. Le processus de d duplication des donn es est largement utilis dans les serveurs de fichiers, les syst mes de gestion de bases de donn es, le stockage de sauvegarde et de nombreuses autres solutions de stockage. Une strat gie de d duplication appropri e permet d'utiliser de mani re optimale l'espace de stockage disponible sur des p riph riques de stockage limit s. Hadoop ne fournit pas de solution de d duplication des donn es. Dans le cadre de ce travail, le module de d duplication a t int gr dans le cadre Hadoop afin d'optimiser le stockage des donn es.
ThriftBooks sells millions of used books at the lowest
everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We
deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15.
ThriftBooks.com. Read more. Spend less.