Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

Les fondements du Big Data

Découvrir les origines du Big Data

Testez gratuitement nos 1336 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Les premières solutions techniques au problème du Big Data ont été développées par Google. Découvrez de quelle façon ils ont résolu leurs propres problèmes.
07:22

Transcription

Maintenant que nous avons abordé la nature du « Big Data », qu'est-ce que c'est, qu'est-ce qu'on appelle du « Big Data » et ce que ça n'est pas, voyons un peu comment on fait du « Big Data », entrons un peu plus dans les détails pour savoir ce que ça recouvre techniquement et quand on vous dit qu'on a fait des analyses en « Big Data », que le « Big Data » a permis de prédire telle ou telle chose. Comment est-ce qu'on le fait concrètement derrière, quelles sont les technologies ou en tout cas, les solutions, l'architecture mises en œuvre ? Pour cela, ça vaut la peine de le prendre d'un point de vue historique. Quelle est la naissance du « Big Data », comment est-ce qu'on a commencé à parler du « Big Data » et à partir de quoi ? Historiquement, dans le courant des années 2000, c'est plutôt Google, en publiant quelques papiers, qui a lancé la mode du traitement « Big Data » des données parce que « Google », déjà à l'époque, au début des années 2000, avait des besoins de traitement de très grand volume de données puisqu'ils indexent le web visible tout entier. Donc, comment traiter toutes ces informations pour en faire un index de recherche ? Les solutions mises en œuvre en interne, ont été expliquées dans deux ou trois papiers dont je vais vous parler ici. Donc, quand je vous parle de papiers, ce sont des publications qui ont été présentées lors de congrès sur les technologies de système distribué. Le premier papier s'appelle « Google File System » ou « GFS » et je vous le montre ici, simplement, Google dit : « pour stocker cette volumétrie très importante de page web qu'on doit traiter et en plus, on a d'autres choses à stocker, on fait du « Gmail », on a beaucoup d'information à stocker, tous les mails des gens, on a « Google calendar », on a « Google docs », etc., comment est-ce qu'on va stocker tout ça ? » On s'est fait, bien entendu, un système de fichiers distribués. Si on regarde dans le document, on a une petite description, ici, du système de fichiers distribués. On dit : « On a un maître qui se situe ici et ce maître va stocker la table des matières de mon système de fichier, l'espace de nom, le « namespace » tel qu'on appelle ici ». Et ensuite, on va distribuer toutes les données sur beaucoup de machines, donc toute une série de serveurs. On a une architecture distribuée qui va permettre à un client, à une application, d'aller demander au maître des fichiers et le maître va aller chercher les fichiers sur les serveurs. Donc, on distribue les données sur toute une série de machines qui sont des machines de capacité moyenne, ce qu'on a appelé du « Commodity hardware ». On a à partir de cette époque, début des années 2000, la capacité de créer des « data centers », des centres de données avec beaucoup de machines à l’intérieur. Donc, au lieu d'acquérir des machines de grande taille, on va, plutôt, augmenter notre capacité, en accumulant des machines de taille moyenne, de façon à distribuer le stockage. Deuxième publication de Google ; une publication qui s'appelle « MapReduce », « Simplified Data Processing on Large Clusters », en d'autres termes, on va utiliser une série de machines, ce qu'on appelle un « cluster d'ordinateurs » pour travailler sur les données et de façon simplifiée. L'idée est donc ; avec mon « Google File System », mon système de fichiers distribués, j'ai distribué les données sur un large « cluster d'ordinateurs », mais il faut que je puisse les traiter. Qu'est-ce que je vais faire ? Je vais distribuer, également, le traitement sur chaque machine, de façon à ce que je puisse faire une analyse également distribuée. J'ai distribué les données et maintenant, je distribue le traitement à l'aide d'un algorithme qu'ils ont appelé « MapReduce » et dont vous avez, peut-être, entendu parler. L'idée de « MapReduce », c'est de pouvoir faire deux opérations ; une opération de type « Map », c'est-à-dire on va traiter chaque partie des données, chaque partition des données pour en tirer des informations et ensuite, lorsqu'on a analysé chaque partie, on va faire une réduction, on va regrouper toutes ces informations pour en tirer un seul résultat. Par exemple, j'analyse toutes les pages web que j'ai stockées, sur chaque machine, j'ai une partie du web, j'en tire des index pour savoir quel mot se trouve dans quelle page et j'ai, donc, toute une série d'index individuels, et dans la phase de réduction, je vais regrouper tous mes index pour n'en faire qu'un seul. Et si on regarde techniquement comment ça se présente dans ce petit diagramme, on va avoir un programme qui va lancer ces opérations de « MapReduce » et on va avoir un certain nombre de machines qui sont ici, qui vont travailler avec des données locales, générer ces index intermédiaires, ensuite, il va y avoir ici, une phase d'échange de données sur d'autres machines qui vont faire la réduction et on va générer, ici, des fichiers de sortie. Vous voyez que c'est un traitement, on en a parlé, qui est un traitement de type « batch », le programme va lancer les opérations, le maître va s'occuper de distribuer et de gérer ces traitements, mais ensuite, ces traitements peuvent durer, par exemple, une heure, deux heures et il vont à la fin générer des résultats, ça peut être des résultats dans des fichiers, ça peut être des résultats dans des bases de données, mais c'est un traitement qui n'est pas, à l'époque, un traitement en temps réel du tout, c'est un traitement en « batch ». Si on avait exécuté sur une seule machine, on n'y serait, d'ailleurs, probablement, pas arrivé mais ç'aurait pris des jours ou des semaines, mais le fait de distribuer les données et le traitement sur un « cluster de machines », permet de monter en charge à l'infini, en charge et en volume et permet aussi, d'y arriver dans des temps raisonnables, peut-être trois heures au lieu de trois semaines, selon le nombre de machines. Et voilà, la naissance, si vous voulez, du traitement « Big Data », le traitement « Big Data », ça va être un traitement qui est distribué. Ensuite, Google a publié d'autres papiers, notamment pour dire : « on a fait une base de données par-dessus qui s'appelle « BigTable » et qui va nous permettre d'utiliser ce système aussi pour faire de l'opérationnel, stocker des données, plutôt unitaires ». Et puis, ils ont publié plus tard, un certain nombre de papiers, par exemple, un papier sur une technologie qu'ils ont appelé « BigQuery » pour dire : « notre traitement « MapReduce » était en mode « batch », mais on a trouvé des moyens d'augmenter les performances, d'arriver à des traitements plutôt interactifs ». Et maintenant, sur de large volume de données, on peut faire des choses qui ne sont plus en « batch », mais qui sont en « interactif », on lance une requête et au bout de quelques secondes, dizaine de secondes, éventuellement quelques minutes, on a un résultat et on peut donc travailler de façon interactive, faire une requête, voir le résultat, en lancer une autre. Que s'est-il passé ? Les papiers de Google, ayant été publiés, ils ont intéressé un certain nombre de développeurs et d'autres entreprises qui avaient ce type de besoin et des équipes de développement ont commencé à implémenter ces solutions, à créer des programmes qui reproduisent ces solutions techniques et le plus connu s'appelle « Hadoop », vous en avez tous entendu parler, on en retouchera un mot, bien sûr, dans cette formation, « Hadoop », c'est l'implémentation libre de la solution de Google, de « GFS » pour le système de fichiers distribués qui s'appelle « HDFS » et de « MapReduce » qui s'appelle « Hadoop ».

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !