L'essentiel d'Apache Spark

Appréhender les types de traitement

Testez gratuitement nos 1271 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Le travail du data scientist (expert en gestion et analyse de données) consiste à développer des solutions en vue de leur industrialisation. Suivez les explications de votre formateur.
04:32

Transcription

Nous avons vu que le Big Data, ou les traitements du Big Data, tendent à s'approcher d'un traitement en temps réel. En tout cas, on va parler de traitement interactif. Si avant on était sur des traitements batch, ça voulait dire que des informaticiens définissent des algorithmes ou du code qu'on va envoyer sur les serveurs. On va industrialiser ces traitements, mais les traitements vont être planifiés, par exemple, une fois par semaine ou une fois par jour, pour recalculer ces vues intermédiaires ou ces résultats des données. On va bâtir pour faire des analyses de Big Data. Mais si on peut arriver maintenant à avoir des traitements interactifs, c'est-à-dire écrire une requête et observer les résultats quelques minutes, voire quelques secondes plus tard, ça veut dire qu'on peut travailler avec notre énorme masse de données pour faire des analyses, pour chercher, pour essayer de trouver des résultats dans ces données, auxquels on n'avait pas pensé avant. Et c'est un peu la naissance de ce métier qu'on appelle maintenant « data scientist », un métier ô combien populaire, ou ô combien à la mode en ce moment. Mais c'est quoi la « Data Science » ? Eh bien, c'est justement cette capacité de faire ce qu'on pourrait appeler du travail ad-hoc, analyser les données avec les outils connus par un data scientist. Par exemple, SQL, bien sûr, ou des langages relativement simples, comme Python, un langage de script, ou un langage de statistique comme R. Et grâce à ces outils qui vont se connecter à un système de Big Data comme Spark, eh bien, de pouvoir rapidement prototyper, travailler avec des données, faire des recherches dans les données, et puis faire une industrialisation, c'est-à-dire peaufiner un peu ces algorithmes, par exemple, s'il s'agit de machine learning, faire quelques tests, changer les options des algorithmes, et finalement automatiser les traitements et les méthodes de visualisation pour rendre des résultats concrets aux utilisateurs finaux, et finalement, après industrialisation, placer, on pourrait dire en production, le traitement des données sur ce gestionnaire de clusters, par exemple, qui est Spark, avec un gestionnaire de clusters sous-jacent. Donc, ça permet de vraiment travailler maintenant avec des volumes très importants de données en Big Data de façon beaucoup plus souple. Les usages, ça peut être finalement des traitements en graphe orienté acyclique, comme je vous en ai vaguement parlé. C'est un peu compliqué, mais ça veut dire, eh bien, on va traiter un jeu de données d'abord en lui appliquant peut-être un regroupement, et puis on va calculer des informations sur ce regroupement. Donc, on va faire plusieurs étapes de calcul, et c'est très souple, c'est finalement une démarche on va dire, je prépare mes données, je les analyse d'une certaine façon, je les fais passer dans autre chose. Et donc, on fait une suite d'opérations, on pourrait expliquer le graphe orienté acyclique comme une suite d'opérations. Pourquoi c'est orienté ? Parce qu'on part de quelque chose et on arrive, opération par opération, à un résultat. Pourquoi c'est acyclique ? Parce qu'on ne fait pas quelque chose qui retourne sur les données. On part d'une source et on arrive à une destination, c'est aussi simple que ça. Les usages, c'est aussi ce qu'on appelle du machine learning, c'est-à-dire des algorithmes de type data mining, mais ce sont des algorithmes qui peuvent plus apprendre des données et qui peuvent être affinés afin d'extraire des informations parfois prédictives, parfois classificatrices, des données avec des algorithmes statistiques précis. Ça peut être le traitement de flux. La différence avec le traitement plus batch, c'est que le traitement de flux va récupérer en temps réel les flux d'informations qui arrivent et va pouvoir les traiter au moment où elles arrivent. Par exemple, les classifier, par exemple, retrouver des tendances dans le flux qui est en train de se produire. Par exemple, un flux Twitter, par exemple un flux de trafic, un flux réseau également, et pouvoir traiter rapidement pour prendre des décisions, pour envoyer des avertissements, pour bloquer certains processus, etc. Traiter des flux, quand ils sont importants, eh bien, c'est difficile de le faire sur une seule machine, on va avoir des traitements également distribués. Et puis enfin, le parcours de graphes, chose de plus en plus importante, par rapport à l'Internet, par rapport aux réseaux sociaux, par rapport à des suivis de trajets, ça veut dire suivre des chemins à travers des nœuds, ce sont des chemins dirigés à travers des nœuds, et pouvoir faire ce traitement entre des relations très fortes entre des objets, mais aussi de façon distribuée.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !