L'essentiel de Hadoop

Filtrer les résultats d'un scan

Testez gratuitement nos 1300 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Maîtrisez les filtres à appliquer lors des scans de données HBase. De cette manière, vous limiterez la quantité de résultats à exploiter.
04:25

Transcription

Nous avons vu qu'il est possible de lancer un scan sur HBase, pour pouvoir itérer sur l'ensemble des lignes présentes dans Hbase, cependant, il peut être utile de filtrer les résultats de ce scan. Pour ce faire, on a plusieurs options : l'opération scan, qui va nous permettre de filtrer ces résultats. On va faire un scan help, par exemple, si ça peut nous aider, et nous avons toute la documentation de scan qui va nous aider. On voit quelques options, par exemple, la possibilité de le faire « reversed », c'est-à-dire dans le sens inverse. Nous voyons la possibilité d'utiliser un « time range » pour avoir uniquement les données entre deux « time stamps » mais également une limite pour avoir uniquement un certain nombre de données. L'idée principale est déjà que l'on peut scanner suivant les colonnes que l'on veut récupérer. Ainsi, on peut dire que l'on veut uniquement la colonne, par exemple, donc (famille1:rue) alors il ne faut pas oublier de passer 'ma table' et on va récupérer uniquement les informations concernant famille1:rue, si on mettait famille2:rue, on verrait que c'est celle concernant famille2:rue. On peut, bien entendu, rajouter le nombre de versions que l'on veut récupérer, deux versions, par exemple, et on peut faire un Limit Ici j'ai quand même un Limite1 car je n'ai qu'une seule ligne, une seule cellule qui est utilisée, qui est retournée avec juste deux valeurs. On peut donc faire un reversed qui va inverser l'affichage des résultats et qui va nous permettre d'avoir des résultats triés par clé inversée. On voit bien ici que le reversed concerne ici les identifiants. Pour ce faire, on va rajouter une autre ligne, cela aura plus de sens. Donc dans ma table, directement, on va ajouter une seconde ligne, qu'on va appeler par exemple, fduclos et on va mettre pour famille2:rue, la valeur « république ». On a rajouté la ligne qui a pour identifiant fduclos, avec comme valeur dans famille2:rue, la valeur république. On relance notre scan et on ne voit pas notre ligne fduclos dans ma table. Effectivement, on a mis un Limit 1, il va donc se limiter à la première ligne. Changeons donc le reversed et on voit uniquement la ligne fduclos. On voit bien que cela nous inverse l'ordre de résultat et on peut mettre un Limit 2 pour avoir uniquement deux lignes, donc deux identifiants différents qui nous sont retournés ici, fjulio et fduclos, dans un sens ou dans l'autre. Il va également être possible d'utiliser des filtres un peu plus avancés, en faisant notamment un préfixe « filter », qui va nous permettre de demander d'avoir uniquement les lignes commençant par S. Il ne s'agit pas du préfixe filter mais du « raw » préfixe filter. Et nous voyons que nous récupérons uniquement les lignes dont la clé de ligne commence par S. Il est également possible d'utiliser des filtres plus évolués mais il faut être conscient que si on filtre sur les données directement, on va devoir les décompresser, les lire et cela va être très coûteux. Alors que les filtres sur les identifiants de ligne sont très faciles à faire puisqu'elles sont indexées et ordonnées. De cela, il faut réfléchir à nos identifiants de ligne à l'avance et les choisir avec parcimonie. En effet, si vous savez que vous devez filtrer régulièrement pour n'avoir que certaines lignes, peut-être qu'il faut mettre cette information en identifiant de ligne et dans un certain ordre afin de pouvoir filtrer facilement dessus directement lors du scan pour HBase.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !