Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

Les fondements du Big Data

Découvrir MapReduce

Testez gratuitement nos 1341 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Les traitements Big Data son basés sur le concept DAG (Directed Acyclic Graph, graphe dirigé acyclique). Votre formateur vous en présente un exemple avec l'algorithme MapReduce.
05:08

Transcription

Quels sont les différents types de traitement qu'on peut appliquer aux données en « Big Data » ? Il y en a quatre, globalement, ce sont les « DAGs », on en a déjà parlé donc, le graphe orienté acyclique, c'est le « Machine learning », le « Traitement de flux » ou de « stream » en anglais et le « Parcours de Graphes ». En ce qui concerne le « DAG », en anglais, on se souvient que ça veut dire « Directed Acyclic Graph », ça veut dire un graphe d'exécution, on a plusieurs étapes d'exécution, plusieurs étapes de transformation des données, finalement, c'est acyclique parce qu'on ne reviendra pas en arrière on prend une source, on fait des calculs, on transforme ces données et ensuite, on obtient un résultat qui va être un résultat sous forme de fichier, d'information dans une base de données, de quelque chose qui va être affiché à l'utilisateur, bref, le résultat de l'analyse qui peut être consultable et manipulable par l'utilisateur final ou par le « Data Scientist ». « MapReduce » est un exemple de « DAG » et on va le voir dans une seconde. L’actualité du « Big Data », c'est de ne pas se limiter à « MapReduce », mais d'avoir des environnements de développement et d'exécution qui vont permettre d'exécuter des « DAGs » arbitraires, on pourrait dire, totalement distribués, ça veut dire tout type de transformation, pas seulement du « Map », tout type de modification des données et tout type de résultat qu'on peut afficher. Donc, ces « Moteurs de traitements Big Data » qui permettent de faire des « DAGs » arbitraires, sont des environnements comme « Apache Spark », « Apache Flink », « Apache Tez », voyez que beaucoup de choses sont dans la fondation « Apache » qui sont des systèmes généralistes pour le traitement de « DAG », on en reparlera. Ensuite, la « Couche de distribution » qui permet d'exécuter ces « DAGs » sur un « cluster » de machine, ce sont des technologies comme « Hadoop YARN » ou « Apache Mesos », on en touchera un mot aussi dans la partie « Outils ». Pour qu'on comprenne bien, jetons un coup d’œil sur ce qui est « MapReduce » donc historiquement, par rapport aux documents et à l'algorithme de « Google », bien sûr. « MapReduce », c'est à l'idée de prendre des données sources, probablement, très volumineuses, de faire des opération de « Map » dessus, par exemple, j'ai une liste de documents et puis pour chaque document, je vais compter le nombre de mots donc l’idée d'une fonction « Map », c'est de travailler avec une liste source et de produire une liste de résultat et l'idée de cette fonction « Map », c'est de le faire sur un « cluster » de machines donc de partitionner les données et de travailler sur les partitions de données. Techniquement, si on fait du « MapReduce » avec « Hadoop », on utilise un système de fichiers distribué qui s'appelle « HDFS » et il y a une colocalisation entre les données du système de fichiers distribué et les traitements, ça veut dire que comme on le voit ici, nous avons un « JobTrackers » qui vient « d'Hadoop MapReduce » et on a de l'autre côté, un « NameNode » qui vient « d'HDFS », ce sont deux maîtres, il se communiquent des informations. Et ensuite, le « JobTrackers » va envoyer des tâches aux différentes machines, en collaboration avec le « NameNode » « d'HDFS » qui connaît ces « DataNodes », ces « Nodes » de données qui contiennent réellement les données, ce qui permet à « Hadoop MapReduce » d'accéder au partition de données locales déjà existantes sur chaque machine. Il n'y a donc pas de transfert de données sur le réseau, ce qui permet de bonnes performances, évidemment. Par contre pour accéder à la partie « Reduce », c'est-à-dire pour agréger toutes les informations des différents « Mappers », si vous voulez, il faut, bien entendu, échanger des données, c'est une phase qu'on appelle « Shuffle and Sort », c'est une phase coûteuse mais nécessaire parce qu'on doit, bien entendu, récupérer sur un plus petit nombre de « Reducers », de machines qui vont faire [ inaudible ] égale à réduction, on doit récupérer les données qui ont été travaillées sur chaque machine. La réduction étant faite, on arrive à un résultat qui dans le « MapReduce » historique, est un résultat stocké dans un fichier, dans une base de données, bref, en « Output », en fichier de résultat puisqu'on est en mode « Batch » et ensuite, il suffit, bien entendu, aux utilisateurs, aux développeurs, de mettre à disposition ce résultat. Donc, vous avez compris que ce qui est très important dans ce type de système, c'est qu'il ait une colocalisation entre les données et le traitement. « MapReduce » n'a pas de sens si les fonctions « Mapper » doivent aller chercher des données sur d'autres machines que la machine sur laquelle, elle s'exécute. Donc, dans la plupart des cas et surtout, si les données sont volumineuses, un système de traitement doit être en collaboration, doit parler à un système de stockage distribué.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Votre/vos formateur(s) :
Date de parution :13 juin 2017
Durée :1h47 (26 vidéos)

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !