Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

L'essentiel d'Apache Spark

Traiter les données du Big Data

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Le Big Data, ce n'est pas uniquement le stockage, c'est aussi le défi du traitement des données. Découvrez quels sont les types de traitement effectués en Big Data.
03:51

Transcription

Nous avons parlé du big data en tant que tel, des données et ces données, on va les traiter. On peut reconnaître trois grandes classes de type de traitement de données : on peut avoir un traitement, on va dire plutôt descriptif, on va chercher ce qui s'est passé et pourquoi. Ça peut être à l'aide d'analyses de corrélation entre les données et analyses de données existantes, ça peut faire l'objet d'analyses de Datasets en SQL, des choses comme ça et on va pouvoir essayer d'expliquer ou en tout cas relever des corrélations entre les données qui ont été stockées. Alors sur des données de logs par exemple, sur des informations de capteurs analysées de façon statistique ou regroupées ou faire des agrégats sur ce qui s'est passé. Par rapport à ça on peut aussi avoir une démarche plutôt prédictive, on va pouvoir en analysant ce qui s'est passé comment ça s'est passé, extraire des paterns et avoir une idée de ce qui risque de se passer ou de ce qui va se passer. On peut utiliser pour ça par exemple des algorithmes de machine learning qui vont essayer de prévoir par rapport à des patterns de données des choses nouvelles. Puis, c'est un peu une extension du prédictif, on peut parler de prescriptif : on peut chercher dans les données, on peut extraire des données, des informations qui vont nous permettre de prendre des décisions, de faire des choix, pour essayer de produire quelque chose, que ce soit commercial ou que ce soit social, on va essayer d'utiliser cet outil de données pour avoir plus d'informations à disposition pour prendre des décisions. Ce qu'on appelait à l'époque la « business intelligence », l'intelligence du business par rapport aux données. Par rapport au BI justement, ce qu'on appelle la « business intelligence » pourquoi le big data n'est-il pas tout simplement de la BI ? Quelle est la différence ? Il y en quelques-unes, on a bien entendu des points de recoupement, mais il y a quelques points différents quand même. Si on parle purement de charge de travail, la BI est quelque chose où on prépare les données, on fait des traitements répétitifs, en fait on sait à l'avance ce qu'on veut analyser sur les données, alors que dans le big data, on a plus une démarche expérimentale, ad hoc, ça veut dire qu'on a nos données à disposition et puis on va s'en servir à l'aide d'outils comme Spark justement pour regarder à quoi elles ressemblent, pour les analyser, en tirer des informations, qu'elles soient donc descriptives, prédictives ou prescriptives. Et la souplesse d'outils comme Spark va nous permettre de faire ces analyses de données sans avoir préalablement formaté, préparé, stocké nos données, dans l'idée de les utiliser d'une certaine façon. Donc stockage brut et analyse ensuite. Donc en terme de type de données, ça veut dire que la BI est principalement structurée, on a prédéfini des structures de données, alors que dans le big data on est dans quelque chose de brut parfois, parfois purement du texte, parfois du semi-structuré, parce qu'on a stocké toutes les données qu'on avait à disposition et on va les analyser ensuite. Et en terme de sources, très souvent dans la BI on a des sources dites opérationnelles, c'est-à-dire qu'on a nos bases de données bien structurées et on fait des extractions pour les analyser ensuite dans un système analytique. Mais le big data va se servir des différentes sources de données dont nous avons parlé, par exemple capteurs, logs, données d'utilisation mobiles et donc on a non seulement des sources opérationnelles qui viennent de données structurées de l'entreprise, mais aussi des sources externes qui ont été récupérées et qui sont nettement moins structurées, donc le type de données est plutôt du semi-structuré ou du brut et qu'on va devoir analyser également d'une façon expérimentale. Voilà en quoi le big data a une réelle différence avec la BI.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !