Développer une application Big Data avec Hadoop

Exploiter les données

Testez gratuitement nos 1255 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Le Big Data brasse un très grand nombre de données. Découvrez les données qui seront utilisées dans l'application.
05:56

Transcription

Trouver les données n'est jamais une étape à négliger lors du développement de votre application Big Data. En effet, l'intégralité de votre application repose sur la fiabilité de vos données. Il est, donc, essentiel de bien étudier au préalable vos données, de savoir exactement ce que vous allez pouvoir en tirer et de savoir comment vous pourrez les exploiter. Ici nous allons utiliser les données disponibles sur le ftp.ncdc.noaa.gov. L'extension gov nous suggère que c'est un site américain et effectivement il s'agit du National Oceanic and Atmospheric Administration, une administration du gouvernement américain qui recense et collecte les données quotidiennes depuis 1763 des températures, des précipitations et des pressions. Alors, ça recense aujourd'hui 6000 stations pour les températures, 7500 stations pour les précipitations et 2000 pour les pressions, ça veut dire beaucoup de données qui viennent des quatre coins du globe. Cependant il faut bien comprendre qu'en 1763 les stations n'étaient pas aussi nombreuses et de ce fait les données sont beaucoup moins présentes. Dans le ftpghcn on va trouver notamment un fichier « readme » qui est très important parce qu'il nous explique comment sont collectées les données, mais également quelles sont les significations des différents flags, des différents constants présents dans les fichiers et le format des fichiers. Nous allons également trouver notamment un fichier « ghcnd » station qui rechange chaque station avec ces coordonnées géographiques et des détails sur la station. Et nous allons retrouver plusieurs répertoires correspondant aux données sous divers formats, nous allons ici exploiter le répertoire « by year » qui correspond à un fichier et « csv » par année, « gzip » et on voit qu'il font à peu près 190MB, on va dire, par année sauf, bien entendu, 2017 où l'année n'est pas encore complète. Bien entendu, n'hésitez pas à lire également le « by year » format pour voir le format des données directement de « ccsv ». Nous allons récupérer ces fichiers pour les mettre directement dans l'HDFS, le Systeèe de Fichiers distribué d'Adobe. Pour cela nous allons copier le lien et directement dans une console nous allons utiliser la commande curl sauf que nous ne voulons pas récupérer le fichier en local, mais le mettre sur l'HDFS. Donc, nous allons commencer avant tout par créer un répertoire dans l'HDFS avec la commande « hdfs dfs mkdir » pour récupérer le répertoire Data, par exemple. Et dedans, un répertoire Data « by year » où on va mettre les fichiers année par année qui proviennent du ghcn. On va faire, alors, un Curl ou un wget, cela importe peu sur notre fichier par exemple ici de 2017 que nous allons rediriger vers la sortie standard et pailleper le tout directement sur un « hdfs dfs put », on met le tiret comme fichier d'entrée pour indiquer que ça va venir de l'entrée standard et on utilise, on met ça data/by_year et on met bien ici le nom du fichier parce qu'il n'a pas de nom vue qu'on prend les données qui viennent de l'entrée standard, donc, on va remettre 2017.csv.gz et on a le téléchargement qui va se faire avec wget, donc, des ici 29M et qui va être créé directement dans le fichier data/by_year 2017.csv.gz. On peut alors -ls pour vérifier que tout s'est bien passé, voilà, on voit un fichier de 29M et on peut faire un texte pour vérifier le contenu du fichier dans « head » pour voir juste les dix premières lignes, voilà. Notre fichier est présent. On pourrait sans problème importer tous les fichiers qui sont présents réellement sur le ftpduhghcn grâce à un mini script batche qui parcouraient toutes les années, par exemple entre 2000 et 2016 pour importer juste les années entre 2000 et 2016 qui va réaliser le wget à chaque fois en mettant de l'arrieère notre variable qui va itérer entre 2000 et 2016, en redirigeant cela faire la sortie standard et en paillepant toujours sur hdfs dfs-put de notre tiret pour l'entrée standard, data/by_year et on va réutiliser ici la variable de l'arrière définie dans le For. Voilà, il va télécharger et importer les fichiers un par un ici entre 2000 et 2016 et on pourrait le faire sur tous les fichiers, notamment depuis 1763. Alors, pour tester notre algoritme, cependant, on va rester juste sur les données de 2016, donc, on ne va pas exécuter ce script car effectivement cela pourrait être gênant d'avoir trop de données pour tester. Ça nous ferait tester notre algoritme sur des périodes beaucoup trop longues, donc, on va le développer, le tester uniquement sur l'année 2017, on importera à la fin réellement pour le mettre en production les données des années précédentes.

Développer une application Big Data avec Hadoop

Concevez une application Big Data avec la suite Hadoop. Stockez des données dans l'HDFS et dans HBase, traitez-les en MapReduce sous YARN, exportez-les dans MySQL via Sqoop, etc.

2h31 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !