Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Les fondements du Big Data

Comprendre le data lake

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Le concept récent de data lake ressemble à celui de data warehouse. Dans cette séquence, vous verrez qu'il s'étend aux besoins actuels du Big Data.
03:40

Transcription

Parlons maintenant d'un concept relativement récent, qui s'appelle « Le data lake » , c'est un concept qui signifie quand même quelque chose, même s'il est un peu marketing et qui se différencie quand même de ce qu'on appelle traditionnellement « Le data warehouse ». Il y a quand même des similitudes, mais il y a des différences. Qu'est-ce que « Le data warehouse » à l'origine ? C'est un entrepôt global des données analytiques d'une entreprise. On va concentrer dans un « Data warehouse » les différentes données opérationnelles qu'on aura récupérées et historisées pour de l'analytique, des différents services de département ou de différentes sources de données de l'entreprise, par exemple, les données comptable, les données logistiques, les données gestion de clients, les gestions de facturation. Tout ça va se concentrer dans un gigantesque entrepôt qu'on appelle « Le data Warehouse ». Quelle est la différence avec « Le data lake » ? « Le data lake » c'est également un stockage global de toutes les données utiles à un environnement « Big data ». La différence va être en terme de volume, « Le data lake » peut être absolument gigantesque, mais il va y avoir également une différence en terme de type de données. Dans un « Data warehouse » on structure les données déjà pour l'analyse. C'est une chose dont on a déjà parlé. Mais dans un « Data lake » on va stocker les données brutes selon les modalités qu'on a déjà évoquées dans cette formation. par exemple, sous forme d'événements datés comme le suggère l'architecture Lambda. On va stocker des données brutes et le traitement se fera après. Traditionnellement, si je reviens à l'idée de « Data warehouse », ce qu'on fait dans « Le data warehouse », c'est qu'on prépare les données à l'analyse. On les prépare par un processus qu'ion appelle en général l'« ETL » : « E » pour Extract, « T » pour Transform et « L » pour Load. Donc, on extrait les données des bases opérationnelles, on les transforme pour résoudre des problématiques, ajouter de l'histoire, pour préparer les données, les dénormaliser, par exemple, pour l'analyse, c'est-à-dire, résoudre des problématiques de jointure, etc. Donc, on doit préparer des données structurées pour l'analyse, mais ensuite on les charge dans « Le data warehouse », c'est la partie « Load ». Mais dans un « Data lake » on aura plus une approche de type ELT. On va extraire les données, on va récupérer des données, qu'elles soient des données opérationnelles de l'entreprise ou des données externes, on va les charger, donc, c'est la partie « Load », « EL » : « Extract » et « Load » donc, pour la partie « Load », on les charge simplement dans « Le data lake », dans un format relativement ouvert et ensuite, la transformation va se faire et se refaire dans les outils d'analyse « Big data » de façon à pouvoir faire des analyses différentes des mêmes données. Cette partie de transformation ne fait plus partie finalement de l’échange de données ou du stockage des données, la partie « Transformation » va, à l'aide d'outil, comme « Spark », par exemple, se faire par un « DAG », « Graphe » dirigé acyclique, c'est-à-dire, la partie purement de traitement des données, c'est la partie de transformation également. Et donc, au niveau des données qui vont être stockées, on ne parle plus de base de données, on n'a pas de schéma strict des données, on a quelque chose de stocké et on aura la souplesse de l'analyser. Les problématiques historiques du « Data warehouse » c'étaient des problématiques beaucoup dans gestion de données, de traitement des données avant l'utilisation pour les préparer à cette utilisation. « Le data lake » renverse cette problématique, on ne les prépare pas, mais on va pouvoir transformer à l'envie les données pendant la phase d'analyse.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !