Découvrir la data science avec Python

Manipuler les regroupements

Testez gratuitement nos 1257 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Votre formateur vous apprend ici à manipuler les regroupements du dataframe, en utilisant la méthode groupby.
04:41

Transcription

Maintenant que nous avons ajouté notre niveau supplémentaire d'index, je vous parlais des groupby, il est temps d'y venir. Donc, je reprends mon dataframe. Je vais appliquer directement la méthode groupby qui va me permettre eh bien de définir des sous-ensembles, bien entendu, et ensuite d'appliquer des opérations à ces sous-ensembles. Mon groupby va se faire ce serait intéressant, sur la lettre. Alors je peux soit faire un groupby en indiquant une colonne, par exemple je sais pas "déclarants", "blanc", "rosé", là ça a pas beaucoup de sens. À ce moment-là, je peux faire une colonne ou un groupe de colonnes, ou en fait, je vais regrouper surtout ce que je peux trouver. Par exemple, j'aurais pu dire, ma colonne "lettre". Facile. Le problème c'est que maintenant, ma colonne "lettre" n'est plus disponible. On va me dire « y'a pas de "lettre" ici. » Ou j'aurais pu faire ceci, plutôt. Pour dire « prends-moi un élément de mon dataframe ». Et on va me dire ici, eh bien je ne trouve pas la clé "lettre" dans la liste des colonnes. Pourquoi ? Assez évidemment, parce que si je commente ceci, j'ai plus de colonne qui s'appelle "lettre". Je l'ai déplacée dans mon index, et vous voyez mon index n'a plus de nom de colonne. Ça fait partie d'un objet spécifique qui est, eh bien, l'index. Et qui est un ndarray de valeurs qui vont permettre d'indexer le reste de mon dataframe. Il faut donc que je travaille à l'intérieur de mon index. Pour cela, c'est très simple, j'ai un objet "index", bien sûr, sur mon dataframe, et mon objet "index" va contenir mes différentes valeurs, mes différents niveaux d'index, et j'ai une méthode, qui s'appelle get_values, pour avoir mes valeurs d'index, et j'ai également une méthode qui s'appelle get_level_values, parce que j'ai plusieurs niveaux d'index ici, et je veux avoir les valeurs de quel niveau ? Eh bien, de mon niveau 1, le deuxième niveau. On est toujours en base zéro, on est d'accord. Donc, qu'est-ce que je dis ? « Fais-moi un regroupement de mon dataframe, par les valeurs du niveau 1 de l'index. » On va déjà voir si ça fonctionne. Et j'ai un DataFrameGroupBy object, très très bien. À partir de ce DataFrameGroupBy object, eh bien je voudrais récupérer quelque chose, par exemple des valeurs de colonnes. Il se trouve que j'ai déjà ici un tableau de 3 colonnes. Je vais le placer directement ici, je vais dire : « Ok, de ce DataFrameGroupBy, tu me récupères s'il te plaît les colonnes qui correspondent au vin. » On va voir ce que ça donne. J'ai toujours un objet, c'est bien. Et puis, tu vas me faire quelque chose dessus. Maintenant, j'ai fait un groupby, il faut que j'applique quelque chose à ce groupby, par exemple des agrégations. Ben ça tombe bien ! J'ai des méthodes qui me permettent d'avoir des agrégations, simplement la somme. Et voilà, je suis regroupé sur le niveau "lettre", et voici la somme des blancs, des rosés et des rouges en hectolitres, sur chaque sous-ensemble. Bon, c'est assez intuitif sur la somme. L'idée de regrouper, c'est que vous allez pouvoir ensuite appliquer des choses par rapport à ce regroupement. Par exemple si je fais une somme cumulative, j'aurais pas tout à fait la même chose que des valeurs regroupées. Si je fais une somme cumulative, on va travailler sur les éléments Comme vous le voyez, d'ailleurs, c'est en termes d'affichage peut-être un petit peu difficile. Mais j'ai A, A, A, A et H pour les Hautes-Alpes. Comme dans les H, manifestement il y a rien il n'y a eu de déclaration sur les Hautes-Alpes mais vous voyez ici que je suis sur une somme cumulative sur les A, par contre. Donc, comme j'ai dit que j'allais appliquer mon groupby sur la lettre, et ensuite appliquer une somme cumulative par rapport à cette lettre, Eh bien, j'ai ici une somme qui est cumulative sur les A et on continue ici, par rapport aux B, on recommence, aux C, on recommence également, comme vous le voyez. Donc, ici je n'ai pas une ligne par élément de groupby, mais j'ai appliqué quelque chose qui va me dire « Tu me montres tous les détails, mais quand même, tu me fais cette opération sur le résultat du groupby en prenant en compte ce sous-ensemble. »

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !