Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

L'essentiel de Hadoop

Découvrir la gestion des services HDFS

Testez gratuitement nos 1341 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Administrez votre cluster HDFS et surveillez vos services grâce aux interfaces web disponibles dans Hadoop.
05:17

Transcription

Afin de nous faciliter la prise en main et l'administration des services HDFS, Hadoop nous met à disposition des interfaces Web pour pouvoir les gérer directement. Sur la QuickStart VM de Cloudera nous pouvons les retrouver directement dans les bookmarks de Firefox et nous trouverons directement l'HDFS NameNode, ici. Cette interface nous permet de voir le statut du NameNode en cours d'exécution, de voir qu'il est actif et de voir notamment son nom de domaine et son port sur lequel il est accessible. Nous voyons qu'il s'appelle quickstart.cloudera parce qu'effectivement même s'il est Cloud en local, c'est le nom de la machine opt. Nous voyons quelques informations : quand est-ce qu'elle a été démarrée, quelle est sa version et nous voyons notamment les statuts de sécurité et de safe mode du NameNode. Nous voyons qu'ils sont désactivés donc a priori le cluster tourne normalement. Après quelques informations du genre le nombre de fichiers et de blocs disponibles sur le système de fichiers, nous retrouvons la capacité totale configurée sur notre cluster. Ici, nous sommes sur une machine virtuelle, il y a uniquement 54 Go d'espace disponible sur le cluster. Nous voyons en dessous l'espace utilisé sur l'HDFS. Il y a 883 Mo d'utilisés sur l'HDFS, ce qui représente un peu plus d'1,5% du cluster. Cependant, nous voyons également, juste là, l'espace utilisé sur le cluster mais qui n'est pas dans l'HDFS. En effet, les 54,51 Go, ici, c'est configuré, correspondent à l'espace disque total du cluster. Cependant, il peut y avoir des fichiers sur les disques qui ne rentrent pas en compte dans l'HDFS. De ce fait-là, nous avons ce qui reste 43,02, c'est-à-dire nos 54.5 Go, moins les 883 Mo sur l'HDFS moins les 10 Go qui ne sont pas sur l'HDFS mais qui sont sur le disque dur. Ainsi, il ne nous reste que 78,92 % du cluster de disponible. Il est essentiel de ne pas se référer à ce nombre, qui est très trompeur, mais de se référer réellement à l'espace restant sur le cluster HDFS et au pourcentage d'espace restant. En dessous, nous voyons l'utilisation du cluster HDFS par serveur et sa répartition en fonction des serveurs. Notamment, pour l'ensemble des DataNodes, le minimum, la médiane, le max et la déviation standard d'utilisation. Ici, nous avons un seul DataNode puisque nous sommes sur un cluster avec un seul nœud. Tous ont la même utilisation. Il est essentiel de bien surveiller cela, pour voir quand est-ce que l'on doit déclencher un balancer sur le cluster pour rééquilibrer les serveurs entre eux, notamment si la déviation standard devient trop importante. En dessous, nous voyons nos noeuds vivants et morts ainsi que ceux qui sont en train d'être décommissionnés et ceux qui ont été décommissionnés. Le décommissionnage d'un node s'apparente à un arrêt programmé. Il s'agit de dire au nœud qu'il va bientôt s'arrêter et donc, de rendre les données accessibles en lecture seule afin que les autres serveurs puissent créer des réplicas de toutes les données qui sont sur le nœud. C'est une méthode propre pour arrêter un nœud et qui évite de tomber en situation de sous-réplication lors de l'arrêt du nœud et évite ainsi de rendre faillible le cluster en cas de panne avec un arrêt programmé. On a les blocs qui sont sous-répliqués, on a les blocs qui sont en attente de suppression parce qu'il sont sur-répliqués par exemple. On a donc toutes ces informations accessibles directement sur la page d'accueil du NameNode. En dessous, on a quelques informations sur le journal notamment pour la synchronisation des Journal Node dans le cadre de la haute disponibilité. En dessous, on a quelques informations sur le journal et notamment pour la synchronisation des Journal Node dans le cadre de la haute disponibilité. Nous allons retrouver également une liste de tous les DataNodes du cluster avec, à chaque fois, le nom du DataNode ici, quickstart.cloudera puisqu'il s'agit de la même machine avec la capacité totale et utilisée du DataNode et un petit graphique représentant sa capacité et son utilisation. Nous allons également retrouver une interface permettant de naviguer dans le système de fichiers HDFS, uniquement en lecture seule. Cela nous permet de voir l'ensemble des répertoires et des fichiers de l'HDFS avec, à chaque fois, les droits, le propriétaire et le groupe, la taille, la dernière modification, le ratio de réplication donc qui est à zéro pour tous les répertoires et la taille des blocs. Nous pouvons alors naviguer dedans, voir tous ces éléments-là et télécharger, récupérer les données directement à partir de l'HDFS. Pour ce faire, nous pouvons télécharger directement les fichiers et voir le détail des blocs utilisés dans le cadre d'un fichier.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !