L'essentiel de Hadoop

Comprendre les opérations HDFS

Testez gratuitement nos 1268 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Prenez en main le fonctionnement de HDFS en analysant en détail ses opérations de lecture et d'écriture.
03:54

Transcription

Regardons à présent comment va se passer une lecture sur l'HDFS. Nous allons donc avoir un utilisateur, qui apparaît ici en bas, qui va vouloir lire un fichier, par exemple le fichier « /toto.txt » sur l'HDFS. Pour cela, la première chose qu'il doit faire, est donc de contacter le NameNode pour connaître, d'abord si le fichier existe, mais également les blocs composant le fichier. Le NameNode peut alors répondre à notre utilisateur que le fichier « /toto.txt » existe bien et est composé des blocs A, B, C et D. Il va en même temps transmettre à l'utilisateur la liste des blocs et des DataNodes contenant ces blocs. Ainsi, l'utilisateur va savoir directement, en un seul appel au NameNode, que le fichier « /toto.txt » est composé du bloc A, qui est présent sur DataNode 1 et DataNode 2, du bloc B, qui est présent sur les DataNodes 1 et 3, du bloc C, qui est présent sur les DataNodes 2 et 3, et du bloc D, qui est présent sur les DataNodes 1 et 3. Une fois cette réponse obtenue du NameNode, c'est à l'utilisateur de contacter chacun des DataNodes pour avoir les blocs en question. C'est là où l'utilisateur peut essayer de contacter les DataNodes les plus proches de lui, mais également de contacter les DataNodes en parallèle, puis de réassembler les différents blocs chez lui en local, ou encore d'essayer de distribuer simplement ses accès sur les différents DataNodes, afin d'optimiser les transferts des données. Comme on le voit, l'utilisateur a beaucoup de travail à faire, c'est pour ça que Hadoop FS, la couche d'abstraction, permet de faciliter ces étapes-là. En effet, contrairement à un système de fichiers classique, c'est à l'utilisateur d'aller chercher les données là où elles sont et de faire plusieurs appels pour avoir accès au fichier. Une écriture, de ce fait, est assez similaire. Si jamais un utilisateur veut écrire un fichier, il va demander avant tout au NameNode, il va donc parler au NameNode, lui dire qu'il veut écrire un fichier en précisant la taille du fichier. Le NameNode va donc en conclure les blocs qui sont à écrire. Il va diviser la taille par la taille d'un bloc, il va voir combien de blocs sont à écrire, il va rajouter ce fichier dans son index, et il va dire à l'utilisateur à chaque fois sur quel DataNode il doit écrire le bloc, avec le nom du bloc en question. Ainsi, c'est à l'utilisateur ensuite de contacter les DataNodes pour y écrire les blocs. Il va rajouter des blocs dedans, et par contre, ça sera les DataNodes qui préviendront le NameNode que les blocs ont bien été écrits, et le NameNode verra qu'il y a un cas de sous-réplication, c'est-à-dire que les blocs ne seront présents qu'une seule fois sur le cluster, là où ils ont pourtant un ratio de réplication, par exemple de trois, si on a gardé le paramétrage par défaut. Alors, le NameNode prendra l'initiative de dire qu'il faut d'autres réplicas et va demander aux DataNodes de créer des réplicas. Ainsi, un bloc qui est seul sur le cluster, sur le DataNode 1, il va demander au DataNode 2 de venir le récupérer et le copier, et de le prendre en plus chez lui. À chaque fois qu'un DataNode finit sa tâche, par exemple le DataNode 2 va créer une réplique d'un nouveau bloc qui est présent sur le DataNode 1, et va prévenir le NameNode, qu'il rajoutera dans ses blocs, et verra s'il y a toujours de la sous-réplication ou s'il faut encore créer des réplicas.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Votre/vos formateur(s) :
Date de parution :31 mars 2017
Durée :3h43 (42 vidéos)

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !