L'essentiel de Hadoop

Comprendre le HDFS

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Initiez-vous aux particularités du HDFS, (Hadoop Distributed File System, système de fichiers distribué de Hadoop), par rapport aux autres systèmes de fichiers.
05:32

Transcription

Le premier point essentiel dans le Big Data, c'est de stocker les données. C'est un point qui est non négligeable, qui est même central, puisqu'on parle de très fortes volumétries de données, c'est-à-dire des données de l'ordre de plusieurs bétas, dizaines de pétaoctets, et de ce fait-là qu'il ne peuvent pas être stockés sur une seule machine. Il va falloir les stocker sur un serveur, sur plusieurs serveurs, sur un cluster de serveurs, et donc de ce fait-là, dans le Cloud, dans ce qu'on appelle le Cloud. Pour cela, Hadoop donc, possède l'HDFS. HDFS pour Hadoop Distributed File System, c'est-à-dire le système de fichiers distribué d'Hadoop. Ce système de fichiers, donc un système de fichiers comme les autres, comme vous en connaissez certainement plein, par exemple FAT, FAT16, FAT32, exFAT, ou alors Ext3, Ext4 ou NTFS sous Windows. Sauf que ici, donc il s'agit d'un système de fichiers spécifique à Hadoop, et qui est surtout distribué. Il est essentiel de réussir à positionner ce système de fichiers parmi ceux existants. Le premier point est qu'il est distribué, comme son nom l'indique. Distribué ça veut dire qu'il peut supporter plusieurs supports de stockage, à la fois plusieurs disques durs, mais également plusieurs serveurs, et les données vont être réparties sur plusieurs serveurs, ainsi, voire même plusieurs cluster. Il est dans les nuages, ça veut dire qu'on ne sait pas exactement où est le fichier, des parties du fichier peuvent être à un endroit, d'autres parties à un autre endroit. C'est la définition même du Cloud, c'est-à-dire qu'on ne sait pas exactement physiquement où est la donnée, elles est présente dans le cluster, physiquement parlant, on ne sait pas spécifiquement. Et, il a de ce fait-là, de par sa distribution, une très bonne « scalabilité » horizontale. Ça veut dire que l'on peut rajouter des disques durs ou des machines afin d'augmenter l'espace de stockage disponible. Ainsi, si on veut un système avec plusieurs dizaines de téraoctets, on a juste à mettre, on va dire une dizaine de machines avec une capacité de quelque téraoctets. D'autres systèmes de fichiers sont distribués par exemple, CFFS, ou GFS, le Google File System à l'origine de la GFS, ou encore Cluster FS ou Orange FS. Sa seconde particularité est d'être répliqué. Ainsi, cela veut dire, que les fichiers sont stockés à plusieurs endroits simultanément. Cela permet d'assurer une très haute disponibilité. De ce fait, même si un disque dur meurt, ou si un serveur devient indisponible, on peut toujours accéder aux données. Les données peuvent être à la fois répliquées sur plusieurs disques durs, mais également sur plusieurs serveurs. Cela offre aussi de meilleures performances de lecture. En effet, on va avoir des données qui vont avoir tendance à être plus proches de nous de ce fait. Attention, le ratio de réplication est à choisir avec attention. En effet, plus on réplique les données, plus ça prend de l'espace en mémoire. Cependant, plus on devient tolérant en pannes, et plus on peut supporter d'avoir des pannes de serveur, et plus on augmente de ce fait les performances. En effet, si chacune des machines a toutes les données, le système devient beaucoup plus performant, mais de ce fait-là, on n'est plus sur un système distribué. Ensuite, l'HDFS est également un système qui fonctionne par bloc. C'est-à-dire que tous les fichiers, on va découper par bloc. Ces blocs ont une taille fixe, peu importe qu'elle soit entièrement utilisée ou non. Les fichiers sont découpés par blocs ainsi que l'espace de stockage. C'est-à-dire que quand on va parler d'un espace de stockage de 200 Go, en fait, on ne va pas parler d'un espace de stockage de 200 Go au terme de l'HDFS, mais d'un espace de stockage de n blocs. On a donc une association entre les fichiers et les blocs qui le composent. Attention, il y a de ce fait-là une surcharge, une perte en fait d'espace mémoire, du fait des blocs qui ne sont pas complètement utilisés. Les caractéristiques précédentes, donc la distribution et la réplication, sont également gérées par bloc. C'est-à-dire qu'en fait un fichier, étant composé de plusieurs blocs, ces blocs vont être distribués à travers le cluster, et ce sont chacun de ces blocs qui vont être répliqués à travers le cluster. Par ailleurs l'HDFS est un système qui a été conçu dans l'optique du « write once, read multiple », c'est-à-dire que c'est fait pour écrire une fois, et une seule fois la donnée, et pouvoir la lire plusieurs fois. Ça ne veut pas dire qu'il n'est pas possible de faire l'inverse, mais ça veut dire qu'il a été conçu dans cet esprit-là, dans l'esprit où ça doit pouvoir être simple de lire plusieurs fois une donnée écrite une seule fois. Ainsi par exemple, il n'est pas possible de modifier directement les données sur l'HDFS, il faut en fait les dupliquer, donc les supprimer et les recréer avec la modification. Par contre, il est optimisé pour faire de multiples lectures en augmentant les performances, et c'est là où il prend tout son sens.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !