L'essentiel de Hadoop

Découvrir Cloudera Hadoop

Testez gratuitement nos 1266 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Simon Gilliot vous présente CDH, la distribution Hadoop de Cloudera. Puis, initiez-vous aux différentes méthodes d'installation et à son utilisation.
05:29

Transcription

Dans le cadre de cette formation, nous allons utiliser Cloudera Hadoop, soit CDH. En effet, c'est une des versions les plus utilisées parmi les distributions Hadoop, et cela va nous permettre d'utiliser directement la Quickstart VM mise à disposition par Cloudera, qui permet de mettre en place un environnement Hadoop simple en quelques secondes. Découvrons rapidement Cloudera Hadoop. Alors, Cloudera Hadoop, c'est donc une distribution, c'est-à-dire un ensemble d'outils configurés et paramétrés pour fonctionner ensemble, qui s'appuient avant tout sur le cœur d'Apache Hadoop. Le cœur d'Apache Hadoop, donc c'est le stockage et le traitement, c'est-à-dire, l'HDFS, et Hadoop YARN pour les MapReduce. Ce sur quoi on va ajouter notamment, donc déjà, Apache Spark qui permet de faire du traitement des MapReduce directement en mémoire, et donc, de façon plus performante que directement les MapReduce sous YARN. On a également la base de données NoSQL d'Hadoop qui va arriver, donc HBase et qui va être intégrée à Cloudera Hadoop. On va avoir Zookeeper, une dépendance après requis d'HBase, une autre base de données NoSQL spécialisée notamment pour la gestion des systèmes distribués en haute disponibilité. On va avoir tout un ensemble de composants pour l'interrogation des données sous Hadoop, sous l'HDFS ou sous HBase, donc notamment Hive et Pig, mais également un ensemble de Framework pour nous faciliter le développement de traitement que ce soit en MapReduce, ou via Hive et Pig. On va avoir Impala et Llama qui permettent donc d'interroger, et qui ont été développés par Cloudera notamment. On va avoir Mahout également, qui est une librairie d'apprentissage permettant de développer des algorithmes d'apprentissage distribués sous Hadoop. On va avoir le format de fichier Parquet qui permet de stocker des données directement dans l'HDFS sur un format directement utilisable, très performant et indexable. On a également donc le protocole Apache Avro qui permet de communiquer avec les services d'Apache Hadoop, à savoir que Hadoop utilise également de plus en plus le protocole Protobuf pour communiquer entre ses services. On a Cloudera Search et Solr qui viennent en renfort pour faire du full-text search, c'est-à-dire des recherches réellement sur les textes complets. On a donc Flume, qui est un agrégateur de logs, et qui permet d'envoyer les journaux système des différentes machines directement dans Hadoop, pour un traitement ultérieur. On a Oozie, un coordinateur de workflow. Ça permet de spécifier les actions qui doivent s'enchaîner, les MapReduce qui doivent s'enchaîner, et, ça permet de les définir comme un ensemble avec des prises de décision, avec de la parallélisation de différentes actions. Par ailleurs, Oozie permet de déclencher donc, des workflows selon soit des événements, soit des événements temporels à la manière d'un chrono. Sqoop et Sqoop2 permettent quant à eux de faire l'import et l'export des données dans des SGBDR, donc dans des systèmes de gestion de base de données relationnelle traditionnelle. Ça permet par exemple de faire des échanges entre MySQL et l'HDFS de façon native dans Hadoop. On a Apache Whirr qui est un gestionnaire de l'ensemble de ces services, Apache Sentry qui permet de définir les permissions et les autorisations au niveau Hadoop de façon centralisée et simple. Et on a Hue qui vient se rajouter comme interface centralisée de l'ensemble de ces services et qui permet de contrôler Cloudera Hadoop dans une interface web unifiée et unique. Comme on le voit, la distribution Cloudera Hadoop est pleine d'outils, complète, le seul réel manque qu'on trouve dans cette distribution est Apache Storm, qui, en effet, n'a jamais été intégré officiellement dans Cloudera Hadoop. Il est conseillé dans ce cas-là de se reporter sur Spark. Il est par ailleurs essentiel de bien vérifier les différentes versions des logiciels « packagés » dans Cloudera Hadoop, je vous conseille alors de vous référer au site web de Cloudera qui va lister, pour chacune des versions de Cloudera, les versions « packagées » des différents logiciels. Ainsi on va retrouver dans la Cloudera Hadoop 5.8, donc 5.8.4, la dernière en date, celle sur laquelle nous travaillons. On va retrouver Hadoop 2.6.0 sur lesquelles Cloudera rajoute des patchs. On a donc 1801 versions de patchs qui ont été rajoutés par dessus. On a de la même façon HBase 1.2.0, et nous avons cela de disponible pour chacun des logiciels embarqués. Cela peut être très utile pour trouver de la documentation appropriée aux versions des logiciels sur lesquels nous travaillons. Par ailleurs, je vous recommande vivement de vous appuyer sur la documentation embarquée directement par Cloudera, et qui est disponible sur leur site web.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !