L'essentiel d'Apache Spark

Importer un fichier Avro

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans Spark, importez le fichier Avro des communes et des lieux-dits pour les manipuler en tant que DataFrames.
04:25

Transcription

Spark ne lit pas nativement le format Avro. Il ne le lit pas et il ne l'écrit pas. Comment faire ? Ajouter une bibliothèque. C'est facile, Databricks a créé une bibliothèque qui s'appelle Spark Avro dont voici sur GitHub l'adresse des sources et vous l'avez également ici sur le site Spark-Packages.org, où vous pouvez le télécharger en format Jar, c'est-à-dire Java compilé, une bibliothèque que vous pouvez déposer directement. J'ai commencé par faire ça, j'ai pris mon Jar, ici, je l'ai téléchargé, je l'ai déposé sur ma machine Linux. Ici dans mon répertoire d'installation de Spark, j'ai un répertoire qui s'appelle Jar, j'y vais et qu'ai-je fait ? J'y ai copié mon Jar, il n'y est pas parce que je l'ai enlevé mais j'y ai copié mon Jar. Vous voyez qu'il y a déjà un certain nombre de bibliothèques qui sont nativement installées avec Spark, notamment la lecture du format Parquet. Pourquoi l'ai-je enlevé ? Parce que j'ai eu une petite surprise, cela ne fonctionnait pas, il me manquait des dépendances sur Avro même, donc pour résoudre ces dépendances, j'ai trouvé plus rapide de compiler moi-même le projet, c'est-à-dire : récupérer à partir de GitHub, ici, les sources, par exemple en faisant un git clone ou en téléchargeant les sources et ensuite, comme la documentation l'indique, me rendre dans le répertoire (c'est plus bas, on y arrive) où j'ai téléchargé toutes les sources avec Git et puis faire un Build SBT, c'est un outil de compilation pour Scala, pour Java aussi. La compilation s'est faite, l'installation de mon Jar s'est faite et, grâce à cela, maintenant, je peux lancer Spark Shell, en ajoutant cette option telle qu'elle est documentée toujours ici sur GitHub, en disant « comment l'appeler avec Spark Shell », comme ceci. Vous notez bien le numéro de la version, il sera mis à jour ici sur GitHub par rapport aux versions mais c'est bien la dernière version que j'ai téléchargée et compilée. Sur Spark Avro, si vous le téléchargez et que vous avez les dépendances, vous avez la même ligne de commande et vous vous adaptez par rapport à la version que vous téléchargez. Donc on essaie ça. Ici, on voit qu'on est en train de résoudre les dépendances et d'ajouter le package que j'ai demandé. Et voilà ! Ensuite, si l'on se réfère toujours à la documentation, comment l'utiliser avec Scala, je dois faire un import comme Databricks Spark Avro point souligné, et puis je vais faire un petit essai. Je veux récupérer mes fichiers Avro, je vais essayer la commune donc j'ai ici deux fichiers Avro que j'ai mis dans temp data, vous vous souvenez que je suis dans un container Docker, ce répertoire est mappé à tmp data dans mon container. J'ai communes.avro (communes au pluriel) lieuxdits.avro. On va essayer communes pour voir si ça marche. Je vais l'appeler co, par exemple. Je vais prendre ma session donc Spark, vous vous souvenez que c'est ma Spark Session, on me le dit ici, et spark.read.avro Comment je le sais, très simple, c'est dans la documentation. On essaie : tmp data donc communes.avro Attention, suspense... C'est pas mal, on a créé un DataFrame, code, nom etc... puisque dans le fichier Avro, nous avons les métadonnées qui sont contenues. On connait leur schéma, vous vous souvenez. Donc on a intégré un DataFrame avec déjà le nom des différentes colonnes.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Votre/vos formateur(s) :
Date de parution :16 mars 2017
Durée :3h11 (38 vidéos)

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !