L'essentiel de Hadoop

Administrer HBase

Testez gratuitement nos 1300 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Identifiez les services nécessaires au bon fonctionnement de HBase. Vérifiez l'intégrité et l'équilibrage de votre cluster puis mettez en place la haute disponibilité.
03:39

Transcription

Un cluster HBase va être composé de deux services principaux, le premier étant le HBase master. C'est lui qui va gérer l'assignation des régions et donc des données à proprement parler, sur les différents serveurs du cluster, et c'est lui qui va gérer la structure des tables. On a également donc le HBase regionserver, il nous en faut plusieurs sur notre cluster, ce sont eux qui vont stocker les données à proprement parler, et les mettre à disposition, des différents clients pour répondre à leurs requêtes. Les Hbases regionserver correspondent à la « scalabilité » horizontale. Plus on veut pouvoir stocker de données, plus on peut rajouter de regionservers, plus on veut des performances importantes, plus on peut rajouter des regionservers. Les regionservers montent les régions, et les mettent à disposition pour pouvoir les interroger. Par ailleurs, HBase utilise comme dépendance le Zookeeper. Le Zookeeper est une base de donnée NoSQL, c'est-à-dire qu'il ne répond pas au langage SQL et qui va permettre de sauvegarder notamment l'état de HBase, l'assignation des régions, quel regionserver s'occupe de quelle région, quelle région est disponible et chez qui, et qui va permettre notamment de savoir quel regionserver est actif, et d'assurer de ce fait-là, la haute disponibilité. Dès qu'un regionserver ne devient plus actif, le Zookeeper s'en rend compte, le notifie au HBase master qui va donc réassigner les régions qui étaient montées dessus à d'autres regionserver pour qu'elles redeviennent disponibles. Le Zookeeper fonctionne sous forme de Quorum, c'est-à-dire qu'il nous faut au minimum trois Zookeeper, et qu'ils peuvent perdre un Zookeeper maximum sur les trois, n-1/2, pour fonctionner correctement. Il va y avoir une élection de leaders parmi les trois Zookeeper, et ce sera lui qui assurera la haute disponibilité et l'assignation des régions. Par ailleurs, il est possible d'utiliser également un service supplémentaire s'appelant HBase REST qui met à disposition une API REST directement pour interroger HBase. De la même façon, on a HBase Thrift qui permet d'interroger HBase avec le protocole Thrift si on l'a mis en place. Thrift étant un protocole qui a été créé et développé pour Hadoop. On a plusieurs opérations d'administration possibles. La première est l'équilibrage. Il s'agit d'équilibrer le nombre de régions montées sur chaque regionserver. Il s'agit ici d'éviter qu'un serveur doive s'occuper de plus de régions, et donc de plus de données qu'un autre serveur du cluster. La seconde opération d'administration courante est de s'occuper de la haute disponibilité. Alors, pour les données à proprement parler, on a plusieurs regionservers. Dès qu'un regionserver tombe, le Zookeeper s'en rend compte, le notifie au master, et les régions, donc les données sont réassignées automatiquement sur d'autres regionservers. Leur disponibilité au niveau des régions, et donc assurée assez facilement. La haute disponibilité du Zookeeper est assurée de par sa structure même. En effet, il s'agit de trois services Zookeeper au minimum de lancés, qui fonctionnent en mode Quorum avec une élection de leader. Ainsi, même si un Zookeeper tombe, le Quorum fonctionne encore. Il reste encore à s'assurer de la haute disponibilité de l'HBase master. En effet, il s'agit de notre single point of failure. Pour la haute disponibilité du HBase master, il existe depuis peu la possibilité d'en lancer plusieurs en parallèle, les HBase master de backup verront automatiquement quel est le master qui est en cours, et prendront la relève si nécessaire.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !