Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

L'essentiel de Hadoop

Créer un jeu de données

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Créez un jeu de données simples en PHP. Une fois les données générées, vous pourrez tester votre algorithme.
03:12

Transcription

Maintenant que nous avons développé notre mapper et notre reducer, nous allons essayer de le lancer directement sur Hadoop. Cependant, avant même de le lancer, il va être primordial d'avoir un jeu de données sur lequel l'executer. Pour cela, de façon très simple, on va donc créer un script php. Dont vous trouverez les sources dans les données d'exercice liées à cette vidéo. Script php qui va nous permettre de générer un jeu de données. Alors, comme on le voit, ce script php, il a un ensemble de produits. Ici, fermiers ; des œufs, des poireaux, des panais, qui sont donc limités en taille et qui peuvent tenir en mémoire. À chaque fois, il va générer donc des probabilités de cross selling entre différents produits et il va générer suite à ça mille paniers. Donc ici, pour faire un premier jeu d'essai, de très faible volume, avec des produits liés. Donc, ce script, on va l'écrire, on va l'appeler données.php et on va l’exécuter pour avoir nos premières données. Donc. on va aller dans workspace/ MonPremierMapReduce là où on la mis, et on va executer la commande php après l'avoir préalablement installé avec un yum install php puisque l'on est sous CentOS. Si on fait php données, on va avoir un ensemble de milles produits liés dans des paniers et on va exporter tout ça dans un fichier csv, on va dire données.csv On vérifie, donc on a un fichier en local qui s'appelle donnees.csv et qui fait donc milles lignes. On va vérifier le début du fichier. Donc, avec un premier panier qui est pomme de terre, navet, courge, le second, poireau, navet, salade, etc. Nous allons devoir mettre ce fichier, donc ces entrées sur le hdfs, en effet, Hadoop travaille principalement et de préférence sur le hdfs. Nous allons donc créer un répertoire avec hdfs dfs /mkdir /MonPremierMapReduce Nous avons créé le répertoire mpmr et donc nous allons y pousser le fichier donnees.csv Nous allons vérifier qu'il y est bien présent avec un ls de mpmr et nous pouvons même faire un cat de mpmr/*, par exemple, pour voir toutes les données. Nous avons nos données en entrée, nous pouvons donc désormais lancer le MapReduce sur ces données.

L'essentiel de Hadoop

Mettez en pratique les concepts spécifiques à Hadoop. Abordez l'HDFS pour le stockage, les MapReduce pour le traitement, ainsi que la base de données NoSQL d​e Hadoop : HBase.

3h43 (42 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
HBase HBase 1.2
Spécial abonnés
Date de parution :31 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !