L'essentiel de Hadoop

Comprendre le modèle Hbase

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Parcourez les différents composants du modèle de données HBase : famille de colonne, colonne, cellule et version. Vous aborderez également le stockage physique des données.
04:08

Transcription

Sous HBase, le modèle de données va être composé de plusieurs composants. On va notamment retrouver en premier point la table. À l'instar des SGBDR, une table est un ensemble de lignes et de colonnes donc, entre guillemets, un tableau. Pour chacune de ces entrées, de ces lignes dans la table, on va avoir une clé de ligne qui est unique, donc, un identifiant unique obligatoire par clé. Il ne peut pas être composite et tout sous HBase est automatiquement stocké sous forme de tableau d'octets, de ce fait-là, il est binaire. Donc, on a une table composée de lignes. Ces lignes sont identifiées par un identifiant unique qui s'appelle la clé de ligne et cette ligne comporte une ou plusieurs colonnes qui ont à chaque fois une famille de colonne et un identifiant de colonne. Ainsi donc, les colonnes sont groupées par famille, et ces familles doivent être définies directement dans la structure de HBase. Ces familles ont des propriétés, comme par exemple la compression. Cependant, les colonnes ont des identifiants qui peuvent être souples, extensibles et donc rajoutés au fur et à mesure. On appelle cellule, le croisement entre une ligne et une colonne, c'est-à-dire famille et identifiant de colonne. La cellule, de ce fait-là, va avoir à chaque fois une version et une valeur. Il est possible de stocker plusieurs versions de la même valeur pour la même cellule. Ça veut dire que sous HBase, les données ressemblent à quelque chose comme cela. On a un tableau à double entrée, donc en abscisses, on a nos colonnes. On aura à chaque fois la famille de colonne qui sont ici Identifiant et Adresse, avec les colonnes qui sont Prénom, Nom, Rue, Code postal et Ville. Ces colonnes peuvent être ajoutées, simplement, directement dans le schéma, sans les préciser et sans que cela ait besoin d'être fait à l'initialisation de la table. En ordonnées, on a nos lignes avec à chaque fois une clé de ligne qui est par exemple ici mbernad, sgilliot et tbertrand, et à chaque fois une valeur pour chaque colonne ou zéro valeur. Effectivement, une table sur HBase est sparse, c'est-à-dire qu'on peut avoir des colonnes vides sans que ça n'ait aucun impact sur le coût, ni en termes de stockage ni en termes de performance. On a donc souvent des colonnes qui vont avoir très peu de valeurs sans que ça n'ait aucun impact. Par ailleurs, les lignes sont regroupées en région. En effet, on voit que les clés de ligne sont ordonnées par ordre croissant, donc directement sur le tableau d'octets et on va avoir un espace de nommage qui va littéralement de moins l'infini à plus l'infini et qui va être découpé en régions. Donc, on va avoir la première région par exemple qui va aller, on va dire, de A au début de T et la deuxième région qui va aller de T à Z. Ces deux régions vont faire l'intégralité de l'espace de nommage, donc ici, qu'on considère de A à Z mais qui en réalité sur les octets et qui vont contenir les clés qui vont toujours être mises dans des régions. Les clés sont forcément ordonnées et le parcours dans HBase se fait selon l'ordre des clés, donc selon un ordre croissant directement sur le tableau d'octets des clés. Au niveau du stockage des données sur le disque, chaque cellule va être présentée par une entrée composée de la clé de la ligne, de la colonne, sa famille et son identifiant qu'on présente sous la forme : Famille:Identifiant, de la version et de la valeur. On peut avoir donc plusieurs entrées pour une même cellule, dans le cas où on sauvegarde plusieurs versions pour une même cellule. On va avoir également plusieurs entrées pour une même clé de ligne, pour chacune de ces colonnes. Toutes ces entrées sont ordonnées automatiquement par clé et donc regroupées par clé et toutes les entrées d'une même clé sont forcément sur la même région et donc montées sur le même serveur.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !