Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Les fondements du Big Data

S'initier aux systèmes de traitement intégrés

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans cette séquence, vous verrez qu'il existe des systèmes de traitement intégrés. Découvrez de quelle façon les différents types de traitement de données du Big Data sont regroupés.
05:34

Transcription

Ce qui est pratiquement le plus intéressant de nos jours, c'est les systèmes généralistes de Big Data, comme, par exemple, Apache Spark ou Flink. Ce sont des systèmes qui vous économisent la coexistence et l'installation de plusieurs outils différents. Vous pouvez installer ces outils différents sous forme de Package, notamment de la part de Hortonworks et de Cloudera qui sont deux sociétés qui distribuent des systèmes Big Data. Mais vous pouvez aussi utiliser des systèmes généralistes où tout est intégré, comme Apache Spark. L’avantage, c'est que si vous avez besoin de faire du « machine learning », ou bien de traiter des Graphes, ou bien d'utiliser des algorithmes de DAG en ayant une couche SQL . Ça veut dire que vous devez faire coexister des programmes différents qui vont avoir des mises à jour de versions différentes, il faudra faire des maintenances différentes, donc, c'est un peu un casse-tête administratif. Par contre, Spark, par exemple, vous offre un environnement unifié pour tous vos besoins. Spark fonctionne de la façon suivante. Un moteur global qui s'appelle « Spark Core », s'occupe de la distribution du traitement de la gestion des erreurs, donc, de toutes les fonctionnalités qui sont globales. « Spark Core » s'appuie en-dessous sur une couche de gestion de clusters, Spark a sa propre couche de gestion de clusters qui s'appelle « Spark Scheduler », donc, si vous commencez un projet avec Spark, vous pouvez très bien utiliser « Spark Scheduler », sans avoir besoin d'installer une couche de gestion de clusters ou vous pouvez utiliser « Hadoop YARN » ou « Mesos », si vous avez déjà un cluster avec YARN ou Mesos. Si vous utilisez YARN, c'est possible également avec Mesos, vous pouvez utiliser HDFS en-dessous et colocaliser le traitement distribué de Spark avec HDFS, avec des fichiers dans HDFS à travers YARN. Au niveau des programmes de traitement, au-dessus de « Spark Core », vous avez quatre modules qui vont vous permettre de traiter les données telles que vous le souhaitez. Le module « Spark SQL » qui s'appelait avant « Shark », mais maintenant « Shark » a été abandonné pour « Spark SQL », est un moteur d'exécution de code SQL, compatible avec Hive, avec un langage SQL riche et donc, il vous permet de gérer des données sous forme de Tables, on appelle ça des « Data Frame ». Et vous pouvez faire du travail sur ces « Data Frame », des jointures, des regroupements, tout ce que vous pouvez faire avec un langage SQL traditionnel. Ensuite, si vous voulez gérer des Flux de données, vous avez un moteur qui s'appelle « Spark Streaming » et qui est un moteur de gestion de Flux avec une API qui va vous permettre de développer des programmes pour répondre aux événements déclenchés par ces Flux. Une bibliothèque qui s'appelle « MLib » , « ML» pour « Machine Learning ». Vous avez des algorithmes de Machine Learning, d'apprentissages automatiques intégrées à Spark. Et enfin, un module qui s'appelle « GrapheX » et qui est aussi comme Giraph, inspiré de Pregel et donc, il vous permet de faire un traitement de Graphe à parcours de Graphe distribué, à l'aide de Spark et à l'aide de la distribution que permet Spark. Donc, vous voyez que vous avez tout à disposition dans une seule distribution, dans un seul programme. A l'heure où j'enregistre, Spark est à la version 2.1, il y a eu beaucoup d'améliorations, on travaille de plus en plus sur du Temps réel, on améliore la vitesse d'exécution de Spark et Spark permet des traitements beaucoup plus rapides que les traitements « MapReduce » traditionnels, aussi pour une raison, parce qu'on peut, lorsqu'on fait des traitements itératifs sur les données. On prend des données et on veut les traiter plusieurs fois à travers un DAG, justement . Spark permet de charger les données en mémoire sur les nœuds de traitement pour pouvoir les réutiliser beaucoup plus rapidement dans la Ram, au lieu d'aller les rechercher sur le disque. Quelque chose que « MapReduce » ne faisait pas, ne fait pas et « MapReduce » est beaucoup plus lent lorsqu'il s’agit de traiter les mêmes données plusieurs fois. Autre outil, plus récent qui déferait la chronique, « Apache Flink » qui fonctionne à peu près sur les mêmes principes. Il y a un moteur de « Runtime » et puis, ensuite, on a deux abstractions : le « DataStream » et le « DataSet ». Ces abstractions vont permettre d'avoir des surcouches de gestion d'événements, une surcouche relationnelle pour faire du SQL, une surcouche pour le « MachineLearning » qui s’appelle « FlinkML », une surcouche de Graphe qui s'appelle « Gelly » avec un « G », bien sûr, pour Graphe. Et donc, vous avez le même système intégré. Alors, « Apache Flink » a des avantages techniques par rapport à Spark, Spark reste le moteur le plus populaire dans ces systèmes de traitement intégré, mais Flink est très récent et puis, voilà, évidemment, on prédit, peut-être que Flink remplacera un jour Spark. Finalement, personne n'en sait rien, mais il est intéressant aussi de se tenir au courant sur l’avenir d'Apache Flink parce que c'est un système alternatif à Spark, si vous avez un choix à faire. A l'heure actuelle, si vous voulez utiliser un système qui est déjà bien rodé, qui est mature et qui est très populaire, partez plutôt sur Spark, c'est un outil très utilisé, vous avez des livres, vous avez de la documentation, c'est un système stable et très performant. Donc, Spark est un des grands acteurs des outils de Big Data, libre aujourd'hui.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !