L'essentiel d'Apache Spark

Créer un DataFrame

Testez gratuitement nos 1271 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Python utilise des listes immuables appelées tuples. Ici, vous apprendrez à créer un DataFrame à partir d'une liste de tuples programmées en Python.
04:57

Transcription

Pour explorer notre DataFrame, on va utiliser quelque chose d'un peu plus complexe qu'une liste de lignes de texte. Je vous ai préparé, je suis toujours en PySpark, une petite liste de tuples, on est en Python. Je vais la coller ici. Il s'agit de tuples Python dans une liste qui commence ici et se termine ici. Les tuples comportent un nom de cépage, j'ai nommé ma liste Cépage, la couleur : R pour rouge ou B pour blanc et puis, approximativement, le pays. Anglianico est un cépage plutôt italien mais on ne peut pas dire qu'un cépage ne soit pas représenté dans différents pays donc j'ai mis ces infos un peu comme ça. Ne vous formalisez pas si vous trouvez un cépage de votre pays et que c'est dans un pays différent. Autre exemple, j'ai mis en Suisse le Gewürztraminer, ce qui n'est pas sympa pour les Alsaciens mais comme je suis suisse, je me suis fait plaisir... Bref, j'ai donc une liste de tuples, j'aimerais en faire un DataFrame. C'est extrêmement simple, j'ai donc Spark, c'est ma session. Spark a une méthode qui s'appelle CreateDataFrame. On ne peut pas faire plus simple. Voyons en une seconde l'aide sur la SparkSession. Notre SparkSession a des CreatDataFrame, ici, on a des surcharges de la méthode et on a des CreateDataset. On peut faire un Dataset, à partir du moment où on l'a typé avec une classe déjà existante, on fera ça au passage ensuite, et on fait des CreateDataFrame et c'est à peu près tout ce qu'on peut faire. On a des choses qui nous retournent le contexte pour la compatibilité mais, grosso modo, lorsqu'on a créé un DataFrame ou un Dataset, on va ensuite travailler avec ce DataFrame ou ce Dataset. CreateDataFrame est, bien entendu, en PySpark via une interopérabilité totale qui fait que je passe ma liste de tuples, qu'elle va être transformée en DataFrame et on me dit : j'ai fait un DataFrame de trois strings. Vous voyez le nom de mes colonnes. Finalement, si je veux appeler maintenant mon DataFrame, il faudrait le mettre dans une variable. Je vais appeler cela df, je vais faire directement comme cela, voilà mon DataFrame. Si je veux la première colonne, ce sera quelque chose comme cela. Elle s'appelle souligné1, ce n'est pas terrible. Je peux, vous vous en doutez, faire un CreateDataFrame et ensuite nommer mes colonnes, ce serait un peu plus pratique. Je peux le faire ici en Python, en faisant une liste de noms avec des crochets, en deuxième paramètre de mon CreateDataFrame. Je vais dire le nom du cépage virgule la couleur virgule l'origine ou le pays. Et voilà, notre DataFrame est maintenant un peu plus compréhensible. Il est mieux nommé, ce qui fait que je peux référencer ma colonne dans mon code. Si je veux voir la liste des colonnes, j'ai une méthode ou plutôt une propriété qui s'appelle Columns et qui me retourne une liste des noms de colonnes exactement comme je l'ai envoyée. Si je veux générer un RDD à partir de cela, pour une raison ou une autre, facile, il y a une propriété qui s'appelle RDD et qui me retourne un RDD. Je peux le réutiliser ensuite vraiment comme un RDD. Mais, entre nous, il n'y a pas vraiment de raisons de faire cela, sauf peut-être pour envoyer des données à une application plutôt ancienne. Notre DataFrame a toujours les concepts de transformation et d'action. Les actions ne changent pas beaucoup. Si vous avez l'habitude de travailler avec des RDD, vous pouvez faire un Collect pour récupérer les informations sous forme d'array ou de liste, de raw, vous voyez, comme on le fait avec un RDD.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !