Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

Les fondements du Big Data

Découvrir des programmes de traitement

Testez gratuitement nos 1334 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Ici, Rudi Bruchez vous présente quelques programmes de traitement spécifiques comme Apache Sqoop et Apache Kafka.
04:30

Transcription

Parlons maintenant de quelques programmes spécifiques de traitement « Big Data ». Alors, il faut savoir une chose, c'est que dans la fondation Apache vous avez énormément de projets de traitement « Big Data ». Vous en avez presque tous les jours qui émergent, qui deviennent des projets incubés par la fondation Apache. Ensuite, ils peuvent, lorsqu'ils sont un peu matures devenir des projets de premier niveau, et la problématique c'est que si vous avez un choix à faire, vous vous retrouvez devant plusieurs projets qui font la même chose avec des technologies légèrement différentes, vous ne savez pas vraiment que choisir. Et en plus, il y a un preum de pérennité. Parce que certains projets sont relativement vite obsolètes remplacés par des technologies mieux architecturées ou plus performantes. Et que vous ne savez pas forcément à un instantée si le projet que vous allez choisir ne va pas dans deux ou trois ans devenir un peu obsolète et remplacé par une meilleure technologie. C'est difficile de faire un choix. Si vous voulez faire un choix sur la pérennité, essayez de prendre des technologies qui sont là depuis quelques années comme Apache Spark, par exemple, qui est un programme généraliste. Même on peut toujours avoir des surprises, par exemple, il y a quelques années, le programme très à la mode était Apache Storm, on en a parlé, [inaudible]. Mais Storm est un peu en perte de vitesse pour des systèmes comme Spark, plus intégré ou peut-être des systèmes comme Apache Samza qui fait un peu la même chose. Donc, c'est vraiment difficile de faire son choix. Voilà, en terme de programme spécifique, je vais vous parler d'Apache Kafka, de Sqoop et de Giraph. Donc, Kafka est une platforme distribuée de streaming de données, c'est-à-dire, de traitement de Flux. Et c'est une plateforme qui est très souvent utilisée en entrée, parfois en sortie, pour récupérer des Flux de données, pour récupérer des sources et les injecter dans un système Big Data. Kafka va récupérer des données de « producers », c'est-à-dire de programme qui utilise l'API Kafka pour produire des données, récupérer des données, de Flux, de sources externes, etc. Kafka permet de se connecter à des bases de données pour les alimenter à partir de ces Flux ou pour s'alimenter à partir de ces bases de données. Et Apache Kafka fournit une API qui permet de créer des processus de streaming, des processus de traitements pour ces Flux. Donc, vous pouvez gérer des Flux dans Kafka, mais vous pouvez aussi, à l'aide, toujours d'une API, créer des applications qui consomment ces données. Ce qui fait que Kafka peut être un système un peu de messagerie ou de traitement Flux qui va alimenter d'autres applications, par exemple, Spark qui, elles vont gérer les données, stocker les données, analyser les données, visualiser les données, bref, Kafka est une sorte de nouvelle façon de faire de la messagerie, en entrée ou en sortie d'une application Big Data. Dans un genre presque semblable, Apache Sqoop qui est un projet un peu plus anciens et on pourrait dire en OTL, un système d'extraction et de chargement de données entre HDFS , un système de fichiers distribués d'Hadoop et des bases de données SQL, des bases de données relationnelles. Grâce à Sqoop, vous pouvez transférer des données d'une base relationnelle vers de l'Hadoop, vers Hive, vers une base de donnée comme HBase et puis vous pouvez faire l'inverse. Vous pouvez grâce à Sqoop faire des transferts incrémentiels des données donc, de récupérer au fil du temps, de façon planifiée, toutes les nouvelles données qui proviennent d'un moteur SQL, par exemple. Donc, un outil très intéressant, lorsque vous devez interagir avec des bases de données de production, des bases de données opérationnelles et votre entrepôt Big Data. Enfin, Apache Giraph, c'est un système de traitement de graphe distribué, je vous en parlais, et donc, c'est un système dédié au traitement de graphe qui va distribuer son traitement à l'aide d'un gestionnaire de clusters comme Yarn, par exemple, ou Mesos et qui est basé sur Pregel. Pregel, c'est une technologie utilisée en interne par Google et une fois de plus, ils ont publié en papier, pour expliquer comment ils faisaient les choses pour leur propre traitement de graphe en interne chez Google , par exemple, pour suivre les liens des URL les uns vers les autres et donc, Apache Giraph est une initiative pour faire une version libre de Pregel. Notamment, Giraph est utilisé par Facebook pour son traitement de réseau social, de liens entre les différents utilisateurs de Facebook.

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !