L'essentiel d'Apache Spark

S'initier au Big Data

Testez gratuitement nos 1300 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Big Data est un terme à la mode, mais il est indispensable de comprendre ce que cela signifie réellement.
06:35

Transcription

Avant de parler spécifiquement de Spark, j'aimerais présenter quelques notions générales sur le Big Data car, bien entendu, Spark est un script totalement dans cette mouvance du Big Data. On a l'habitude de présenter le Big Data exactement comme je vais le faire en parlant de « V ». On parle en général de trois V ou quatre V ou cinq V. Les trois V principaux, bien entendu, ce sont la lettre initiale des concepts, C'est le Volume Big Data, la Vélocité et la Variété. C'est assez connu, mais ça permet de dessiner ce qui entre ou ce qui n'entre pas dans le concept du Big Data. Si on commence par le concept de volume, il est assez évident qu'on parle de Big Data, donc ça veut dire que le volume est en augmentation croissante, et puis on ne cesse de citer des chiffres pour dire à quel point c'est impressionnant. Par exemple, une étude a à peu près prédit qu'en 2020, l'univers numérique pèsera 35 zettaoctets. Vous ne savez pas ce que c'est qu'un zettaoctet ? Moi non plus, avant de chercher. C'est un trillion de gigaoctets si ma mémoire est bonne, donc, ça fait beaucoup, vous avez 10^21 octets. 35 fois 10^21 octets, ça fait beaucoup. Une très grande augmentation, qui n'est pas le problème finalement, le problème, ce n'est pas vraiment non plus le stockage, c'est ce qu'on doit en faire, Il faut les traiter ces données et c'est ça le défi du Big Data. Donc, les organisations devront, selon cette étude, en 2020, gérer 50 fois plus d'informations qu'aujourd'hui, elles seront stockées dans 75 fois plus de types de stockages, de containers, de formats. Donc, ça veut dire qu'on a un défi également pour pouvoir accéder à ces données, traiter ces données. Quels outils on va pouvoir utiliser ? Et on aura beaucoup plus de types de serveurs différents, de hardware différents, de types de machines, on pourra les stocker dans du Cloud, dans du Cloud public, dans des serveurs individuels. Donc, on a des défis purement logiciels finalement, parce qu'il faut savoir quoi faire de ces données. Et donc, on aura beaucoup plus de personnes qui devront gérer ces données volumineuses. Le problème avec le volume, c'est que le stockage, on sait le faire, on peut fabriquer à l'envie des systèmes de stockage, mais le volume augmentant, la puissance des machines reste à peu près la même et donc, comment est-ce qu'on va pouvoir traiter ces données avec suffisamment de rapidité. Justement, la rapidité, c'est le concept de vélocité. Bien entendu, plus on a de données, plus on va avoir des problèmes de performance pour les traiter. Au début du Big Data, c'est-à-dire milieu des années 2000, les premiers traitements qui viennent de documents de Google qu'on appelle du MapReduce, eh bien, ce sont des traitements batch. Ça veut dire qu'on a beaucoup de volume de données à traiter, on va prendre des sources de données, on va lancer des algorithmes ou des fonctions ou du code sur ces sources de données. Ces sources de données vont être analysées et puis on va faire un fichier de résultats. On pourrait dire une vue matérialisée sur les résultats des données. Mais, comme le temps de calcul de computation, pour faire un anglicisme, est relativement long, on va distribuer le traitement. En distribuant, on va diminuer le temps, mais ça va quand peut être prendre une heure au lieu de trois semaines et on aura le résultat au bout d'une heure, c'est un traitement batch et pas un traitement interactif, il faut lancer les processus et attendre leur résultat. Donc, à partir d'un traitement batch, on est passé à un traitement périodique en batch pour dire qu'à chaque fois, on va recalculer les données en incluant les nouvelles arrivées de données qui viennent peut être de la semaine écoulée. Chaque semaine, on va faire un traitement batch pour gérer des résultats, des vues matérialisées, on pourrait dire, des résultats de calculs sur les données. Mais le défi est de pouvoir travailler pratiquement en temps réel, en presque temps réel, parce que si je suis data scientist, vous connaissez ce métier assez nouveau, j'ai envie de pouvoir analyser les données relativement rapidement. J'ai une idée, je vais faire du code peut-être en R, peut-être en SQL et puis, je vais analyser un grand volume de données et si je fais ça et je dois attendre le jour suivant pour voir le résultat, je vais perdre beaucoup de temps. Il faut arriver à un traitement plus rapide. Et le but, ce serait même avec l'augmentation drastique de ces données, d'arriver à analyser un large volume de données en temps réel, c'est-à-dire de pouvoir lancer des algorithmes qui vont analyser les données et retourner le résultat rapidement, disons dans l'ordre de quelques secondes. Et enfin, dans le concept de Big Data, on parle aussi de variété. Parce que le problème des données, c'est que le type de données a beaucoup changé, on a plusieurs sources de données différentes. Historiquement, l'informatique, c'est des bases de données relationnelles, donc des choses bien structurées. On sait faire avec du structuré, mais sauf qu'aujourd'hui, on a beaucoup plus de sources de données. On a bien entendu des choses qui viennent du web, des photos, des images, de l'audio qu'on va pouvoir ou qu'on va vouloir analyser pour, par exemple, reconnaitre des personnes ou reconnaitre des patterns dans l'audio. On a beaucoup de choses qui sont dites semi-structurées. Des logs, des journaux, des serveurs web ou d'applications, des choses qui viennent de journaux, d'utilisations de téléphones mobiles, par exemple. Et donc, on a différents types de données qui sont par exemple du json, des documents qui viennent de moteurs NoSQL, des informations hiérarchiques, des informations sous forme de graphes. Donc, le type de données a beaucoup évolué et a beaucoup éclaté ces dernières années. On a des choses qui viennent de réseaux sociaux bien entendu, et donc, on a des graphes à suivre, des graphes de personnes qui connaissent d'autres personnes qui connaissent d'autres personnes. Ou bien, des informations géographiques à traiter, des informations de trajet entre un point et un autre. Et puis, on a beaucoup de choses qui viennent du téléphone mobile, ou des utilisations mobiles, de l'internet, des objets. On a des choses qui viennent beaucoup de capteurs, c'est notamment ce qu'on appelle l'internet des objets, l'IoT avec des objets connectés qui vont fournir des informations sous forme de mesures par exemple et qu'il va également falloir traiter.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !