Les fondements du Big Data

Comprendre la vélocité et la variété

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Deux V de la définition du Big Data sont la vélocité et la variété. Comprenez pourquoi il faut traiter rapidement des données qui deviennent de plus en plus hétérogènes.
05:00

Transcription

Prenons un V les uns après les autres. Après le « Volume » la « Vélocité » ou la « Vitesse », si vous préférez. Le défi, c'est que le volume des données devient important, les traitements qu'on veut faire sur ces données sont de plus en plus importnants également, on a de plus en plus d'exigences ou de recherches à faire sur les données à ce moment-là, comment conserver une bonne vitesse ? Lorsque la vélocité devient un problème, on passe à des solutions de type Big Data. Et ces solutions de type Big Data, elles ont commencé il y a un peu plus d'une dizaine d'années par un document Google qui indiquait que pour leurs propres besoins qui sont énormes, c'est-à-dire principalement, l'indexation d'autant que possible toutes les pages web du monde, ce qui représente un volume important, Google publie un papier pour dire nous avons trouvé un moyen d'analyser ce volume beaucoup plus rapidement. Ça s'appelle MapReduce, on en reparlera. Mais MapReduce fonctionne selon un mode de traitement « batch », c'est-à-dire à l'époque on n'avait pas trop de choix, on a un large volume, il faut pouvoir créer un index avec tout ça. On va, donc, lancer des processus de création d'index en mode « batch », c'est-à-dire on lance le programme et on n'attend pas de voir le résultat, le programme va fonctionner tout seul et il va générer des résultats, par exemple, un index. Ce traitement « batch » doit devenir un traitement périodique, bien sûr, pour pouvoir traiter les nouvelles « batchs », peut-être quotidiennes, peut-être maintenant chaque heure ou chaque 30 minutes, c'est selon les besoins. Mais à travers l'évolution du Big Data, on essaie d'améliorer la vélocité. L'intérêt aujourd'hui serait d'avoir des volumes très importants, voire très très importants et de pouvoir faire un traitement unteractif, c'est-à-dire j'ai envie de connaître quelque chose de mes données, je saisis une requête, par exemple, une requête en langage SQL dans une interface, et ensuite, le traitement Big Data va se faire en tâche de fond, en arrière plan et me retourner une réponse dans les minutes ou, si possible, dans les quelques secondes, et à ce moment-là, j'ai vraiment une impression de rapidité, et pour cela il faut mettre en place des systèmes Big Data beaucoup plus performants. Et enfin, l'idéal, c'est de faire quelque chose en temps réel, par exemple, un traitement de flux. Si vous avez des flux qui arrivent en permanence de nouvelles informations, il faut pouvoir les traiter par rapport à l'historique de ce qui s'est passé peut-être récemment ou peut-être dans les jours qui se sont passés, et pouvoir réagir pratiquement temps réel, pratiquement instantanément aux changements qui se produisent. Tel est le défi de la vélocité dans le Big Data. Troisième V, on parle de Variété, et on l'a déjà évoquée, on avait, historiquement, plutôt des données structurées qui venaient de saisie humaine, quelqu'un dans un programme saisit une information de client et puis, une information de facture, une information de produit, et tout ça est ensuite récupéré pour de l'analyse. Mais de nos jours on a beaucoup plus de choses que ça. On va avoir, par exemple, des photos, des images, des vidéos, de l'audio à analyser pour pouvoir en tirer des enseignements, par exemple, reconnaissance faciale sur des vidéos de surveillance, par exemple, reconnaissance des personnes ou des choses ou des animaux qui sont sur les photos pour classifier ces photos, par exemple, reconnaissance en audio du contenu, si c'est du contenu parlé. Ce sont des choses beaucoup plus difficiles à analyser avec des volumes beaucoup plus importants, et ce n'est pas du tout la meme structure, bien sûr. On a aussi ce qu'on appelle du semi-structuré, quelque chose qui a un peu de structure, mais qui contient des choses plus brutes, comme par exemple, large volume de texte, ça peut être des « logs », ce qu'on appelle des « logs », ce sont des journaux d'utilisation, par exemple de sites web, qui a consulté quelle page, à quel moment. On peut avoir des données sociales également, souvent sous forme de graphe, qui est ami de qui, qui est ami de quelqu'un à deux niveaux ou trois niveaux de lien ou de connaissance. Et pour cela il faut parcourir des graphes parfois très volumineux, ce n'est pas du tout le même type de traitement de données structurées, bien sûr. On a des données Mobiles qui arrivent, on a beaucoup de données de Capteurs qui arrivent et qui vont continuer à arriver. Vous avez tous entendu parler de l'« IoT», l'Internet des objets. Ce sont des objets connectés qui vont fournir des informations chiffrées grâce à leur capteur, et qu'il faut analyser, ça va faire des volumes très importants de données analysées, ce n'est pas du tout la même structure que des tables SQL traditionnelles. Toute cette variété impose des nouveaux défis également au traitement, si on veut le traiter, sur des grands volumes avec de la vitesse, avec de la vélocité. Il faut aussi penser à des solutions spéciales pour cela.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !