Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

Les fondements du Big Data

Distribuer les données

Testez gratuitement nos 1344 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Le volume de données est en croissance constante. Pour y faire face, vous verrez que les données sont distribuées dans un cluster de machines.
05:41

Transcription

Il est donc facile à comprendre que pour réussir un traitement dit « Big Data », on n'a qu'une seule solution : la distribution. C'est cette distribution qui va nous permettre d'augmenter le volume et de continuer à avoir une bonne vitesse, une bonne vélocité. Distribuer, ça veut dire prendre nos données et les découper, les partitionner sur une série de machines, dans ce qu'on va appeler un « cluster ». On va distribuer quoi ? D'abord, les données à travers un système de fichiers distribué, comme on l'a vu avec « Google File System », l'équivalent qui a été développé pour « Hadoop », s'appelle « HDFS » pour « Hadoop File System », c'est un système de fichiers distribué qui est libre. Libre, ça veut dire qu'il est un « open source », un logiciel libre et qu'il est utilisable gratuitement, il est aussi disponible dans un certain nombre de distributions intégrées pour du « Big Data ». On distribue donc les données, on les découpe, on les met sur un certain nombre de machines et il faut distribuer le traitement sur ces données. On parle donc de « Traitement distribué », les technologies qui sont utilisées, sont, historiquement, « Hadoop », l'équivalent en logiciel libre de « MapReduce » et donc « Hadoop » a un algorithme de « MapReduce » intégré, mais à travers le temps, on a défini d'autres algorithmes de traitement que « MapReduce » et on a globalement, appelé ces algorithmes de traitement des algorithmes de type « DAG » pour « Directed Acylic Graph », on va parler français, graphe orienté acyclique. C'est un peu compliqué, mais fondamentalement, ça veut dire, on va faire une étape après l'autre dans le traitement des données. C'est pour ça que c'est orienté, on part d'un premier traitement et on va vers le traitement suivant, c'est acyclique parce qu'on ne revient pas en arrière, on part d'un premier traitement et on arrive à un traitement à la fin et on ne va pas acycler sur le traitement du début et puis c'est un graphe, simplement, parce qu'on a des liens entre différents « nœuds » qui sont ces traitements qu'on va effectuer. Ça veut dire, plus simplement, qu'on va pouvoir faire des traitements successifs de nos données et que chaque traitement va pouvoir être distribué sur notre « cluster de machines ». C'est donc absolument essentiel pour pouvoir faire du vrai « Big Data » en grand volume et le faire suffisamment rapidement, de distribuer les données et le traitement. Cette distribution, elle peut se faire de deux façons : soit d'une façon centralisée, on va dire qu'on a une machine maître qui va réguler le traitement, qui va s'effectuer physiquement sur des machines secondaires, des machines contrôlées par le maître, et on peut avoir des traitements décentralisés. Dans un système décentralisé, chaque machine a las mêmes responsabilités que les autres, il n'y a pas de maître. Dans le domaine du « Big Data » analytique, on n'est plus sur un modèle centralisé avec un maître qui gère l’exécution des différents processus sur les machines secondaires, dans les moteurs de base de données « NoSQL » qui sont donc plus du « Big Data » opérationnel, comme « Cassandra », on est sur les deux modèles, mais « Cassandra » fonctionne sur un modèle décentralisé, alors que « HBase », base de données qui s'appuie sur « Bigtable » de « Google » et puis sur un modèle centralisé. Mais ici, on ne va plus parler de « Big Data » analytique, donc, on est sur un modèle centralisé. Ce qu'il faut bien comprendre, également, c'est qu'on se base sur un stockage dit « Shared nothing », aucun partage. Ça veut dire que chaque machine va avoir localement, ces données, on va découper, par exemple, un volume de données de 10 pétaoctets en 100 partitions. Donc, on va avoir 100 machines, 100 « nœuds » et on va avoir un centième des données sur chaque « nœud ». Le terme « Share nothing » a été créé par quelqu’un qui s'appelle Michael Stonebraker déjà en 1986 pour parler de « Teradata », une solution déjà d'analyse et de traitement volumineux des données qui était né en 1983, on ne parlait pas du tout de « Big Data » à l'époque et Michael Stonebreaker est quelqu'un qui est un spécialiste des bases de données puisque c'est lui qui a créé, il y a longtemps, « Ingres » qui est une base de données qui est devenue « PostgreSQL ». Donc, le « Shared nothing », ça veut dire, chaque machine contient une partie des données, en local, il n'y a pas de système de stockage partagé. Donc, on parle, comme je vous le disait, de « commodity hardware », c'est-à-dire des machines de taille moyenne qui vont contenir ces données, qu'on va pouvoir ajouter dans le « cluster », parfois, il y a des machines qui vont tomber, c'est-à-dire qu'elle vont tomber en panne et donc on va les remplacer et un système « Big Data » correct doit être capable de s'autocorriger, d'être résilient par rapport à ça, lorsque j'ajoute de nouvelles machines, le « cluster » va s'augmenter automatiquement, repartitionner ses données. Lorsque des machines tombent, on va avoir des copies des données qui vont être maintenues de façon à ne pas perdre de données. On a donc deux niveaux : on a un partitionnement pour la répartition qu'on appelle parfois du « Sharding », du découpage, « shard », ça veut dire éclat, on éclate les données et puis on va avoir de la réplication. Chaque partition, chaque « shard » des données sera répliquée sur d'autres « nœuds » de façon à ne pas perdre les données, si un « nœud » tombe en panne.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Votre/vos formateur(s) :
Date de parution :13 juin 2017
Durée :1h47 (26 vidéos)

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !