Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

L'essentiel d'Apache Spark

Aborder l'histoire du Big Data

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Le Big Data est né grâce à Google. Dans cette séquence, vous irez à la découverte des premières technologies mises en œuvre suite à la publication par Google de leurs solutions dans ce domaine.
04:04

Transcription

En quelques mots, comment tout cela est-il né ? C'est né par des technologies, par forcément par des recherches, mais plus par des entreprises qui avaient soudainement besoin de traiter ces données, qui au monde avaient plus besoin de traiter des données volumineuses, que Google effectivement... Google a publié un certain nombre de papiers pour indiquer quels étaient les choix ou les solutions techniques qu'ils avaient développés en interne pour traiter leurs volumes de données au milieu des années 2000, où le stockage, le nombre de pages, et le nombre d'informations, de logs, qui étaient maintenus par Google devenaient très importants. Ils ont publié un certain nombre de papiers, premièrement pour dire, on a fait un système de fichiers distribués qui s'appelle GFS, ou « Google File System ». En d'autres termes, on a tellement de volumes, qu'on ne va plus pouvoir garder ça sur un seul agrégat de disques, mais on va distribuer ça sur toute une série de machines, et donc on va pouvoir monter en charge en terme de volume, à peu près à l'infini. Ensuite, il faut traiter ces données, et donc Google publie un papier pour dire, nous avons utilisé un algorithme spécifique qu'on a développé en interne, qu'on a créé, auquel on a pensé, qui s'appelle « MapReduce ». On en reparlera un petit peu plus tard, mais MapReduce, c'est l'idée de pouvoir traiter de façon distribuée des données, et ensuite de récupérer les résultats pour les consolider. Troisième papier, on a créé, dit Google, une base de données qui se base sur ce système de fichiers distribués GFS, et qu'on a appelé « BigTable ». C'est une base de données structurée dans laquelle on va stocker nos données en tables, en colonnes, à peu près, enfin avec un certain nombre de différences, mais à peu près comme dans une base de données classique. Alors, ça ne va pas beaucoup nous toucher dans cette formation, donc le côté BigTable ne nous intéresse pas vraiment dans Spark. On peut utiliser des moteurs de base de données NoSQL en stockage pour Spark, comme Cassandra par exemple, mais on va plutôt ici parler de la partie système de fichiers distribués, algorithmes type MapReduce pour traiter nos données. Et enfin, un quatrième papier, paru un peu tard, sur une technologie que Google a appelé « BigQuery » et qui va permettre d'analyser les données un peu plus rapidement, voire même beaucoup plus rapidement que leur algorithme précédent MapReduce. MapReduce, c'est un algorithme qui permet de faire du traitement batch. Il faut traiter les données longuement, si vous voulez ensuite réaliser des exports de résultats. Par contre, BigQuery, l'idée de Google était de faire un format de fichier spécifique, et ensuite un type de traitement qui va permettre de faire de l'interactif. En d'autres termes, vous avez une interface, vous tapez une requête SQL par exemple, et puis vous appuyez sur le bouton. Cette requête va être distribuée sur toute une série de serveurs de traitement, et vous attendez, allez, quelques secondes, quelques minutes, le résultat vient et vous pouvez l'analyser. On n'est plus en traitement batch. On est en traitement interactif avec BigQuery. Et vous verrez que c'est l'ambition et la nature de Spark de faire plutôt un traitement interactif des données du Big Data. En ce qui concerne Google, GFS, MapReduce et BigTable, il y a des implémentations libres, parce que bien entendu ce sont des papiers de Google, Google n'a pas rendu ses technologies open source, il les utilise en interne, mais ce qui s'est passé, c'est que ses papiers étant publiés, des développeurs ont créé des implémentations libres de ces concepts. Et bien entendu, l'implémentation libre classique de ces concepts, c'est Hadoop, on ne va pas vraiment parler d'Hadoop dans cette formation, mais sachez que les équivalents dans Hadoop pour, par exemple, Google File System, c'est « HDFS », pour « Hadoop File System ». MapReduce, c'est « Hadoop » même, ou on pourrait dire « Hadoop MapReduce », et BigTable, c'est une base de données qui s'appelle « Hbase », dont on ne va pas parler ici bien sûr.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !