Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

L'essentiel d'Apache Spark

Distribuer les données et le traitement

Testez gratuitement nos 1336 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Rudi Bruchez vous explique de quelle manière le Big Data assure la distribution des données. Vous verrez également qu'il distribue du traitement au plus proche des données.
02:36

Transcription

Afin de pouvoir traiter ces données volumineuses, ces données de Big Data, qui peuvent atteindre des pétaoctets de données par exemple, eh bien, il devient impossible de le traiter, bien sûr, sur une seule machine, ni en terme de stockage, ni en terme de capacité de traitement. On va donc devoir distribuer. On va distribuer sur un cluster de machines, un cluster de ce qu'on appelle du « commodity hardware ». Chaque machine est une machine remplaçable, quelque chose qui a une capacité moyenne, aussi bien en terme de traitement qu'en terme de stockage, et simplement, on va agir sur l'accumulation de ces machines. On va augmenter la taille du cluster pour absorber une charge croissante, que ce soit en terme donc de stockage et de traitement. Le cluster devient donc en quelque sorte élastique, il va se bâtir au fur et à mesure par l'accumulation des machines, et il va permettre le lissage de cette charge. Donc, quand on parle de distribution en terme de Big Data, on parle de distribution, à la fois de données, sous forme d'un système de fichiers distribués, en général HDFS, qui est le système de fichiers distribués d'Hadoop et qui est utilisé dans la plupart des cas sur du traitement Big Data. Et puis, on parle bien sûr de distribution du traitement, et distribuer du traitement, ça veut dire qu'on va envoyer du traitement sur chaque machine, et que ces machines vont traiter normalement les données locales, de façon à être localisées, de façon à pouvoir découper le traitement, machine par machine, sur les données qu'elles comportent. Les types de traitements historiques, c'est, avec Hadoop, des traitements de type MapReduce. Donc MapReduce, c'est, on pourrait dire, un algorithme, une façon de traiter les données qui va traiter individuellement chaque machine, et puis dans la phase de réduction, de « reduce », récupérer les données pour les agréger. Mais, au fur et à mesure du temps, on s'est aperçu qu'on avait des besoins qui étaient plus riches que cela, différents. On a donc créé des systèmes de traitement comme Spark, qui traitent, eh bien, des algorithmes plus larges qu'on a appelés des « DAG », pour « graphe orienté acyclique », ou « Directed Acyclic Graph ». C'est un nom un peu compliqué, mais en résumé, ça veut dire, on a des algorithmes qui vont permettre de prendre des données, de les traiter, de les envoyer à une autre opération qui va les traiter à nouveau, et tout cela doit être fait de façon distribuée.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !