Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Découvrir la data science avec Python

Effectuer des calculs sur le dataframe

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans cette vidéo, apprenez à effectuer des calculs sur le dataframe. Vous aborderez la méthode pour faire un total de plusieurs colonnes et l'ajouter comme colonne supplémentaire.
04:33

Transcription

Qu'est-ce que je vais faire maintenant avec mon dataframe ? Eh bien je vais bien entendu pouvoir faire des calculs dessus. Mon dataframe comporte un certain nombre de méthodes, de propriétés qui vont me permettre complètement de le manipuler, de faire des calculs dessus, d'obtenir toutes les données que je veux à partir de mon dataframe. Un peu comme un langage d'analyse, maintenant, d'une table. Je peux bien entendu faire quelque chose comme ça, par exemple une somme, tout simplement. Et bien, maintenant, j'ai une somme totale de tous les blancs, les rosés, les rouges, donc j'ai travaillé sur l'axe horizontal, sur l'axe zéro, j'ai trouvé un total de mes différentes colonnes. Je peux travailler sur un autre axe pour demander l'axe des y, et avoir maintenant un total Ain, Aisne, Allier, des… Alors par contre c'est pas terrible, d'ailleurs. Parce que si je reprends mon "dfvins", je m'aperçois que j'ai 4 colonnes, j'ai le nombre de déclarants, et puis en blanc, en rosé et en rouge, le nombre d'hectolitres. Donc c'est un peu idiot de faire une somme du blanc, du rosé et du rouge qui sont des unités d'hectolitres et des déclarants qui sont des unités de nombres de déclarants, ça n'a pas de sens. Donc là je suis en train de faire une somme sur l'axe des y en disant : « Je veux une somme de tout ça. » Ça a pas de sens ! Il faudrait que j'ai une somme par exemple de tout ceci. Alors, comment est-ce qu'on va faire ça ? Eh bien, bonne question. On va définir qu'on va garder seulement ces colonnes, et c'est assez facile de faire ça, parce que par exemple on a un index de chaque colonne. Je peux dire que je veux récupérer seulement les blancs. Et je vais afficher ceci. Et voici les valeurs pour les blancs. Vous voyez que je n'ai plus un tableau, c'est plus vraiment un dataframe, c'est plus une série avec une seule dimension, c'est-à-dire un indexeur et puis sa valeur, qui est ici. Bon, ok, donc il faudrait que je récupère seulement une somme des trois colonnes. Bon c'est pas très très compliqué, je pourrais faire quelque chose comme ceci. En fait, je vais le déplacer dans une variable. On va faire quelque chose qu'on pourrait éventuellement réutiliser pour dire « c'est quoi, les vins ? » Les vins, c'est à la fois le blanc, on a du rosé ok, et on a du rouge. Et ensuite, je veux seulement les colonnes qui sont dans ce tableau. Voilà qui est pas mal, donc je n'ai plus les déclarants. Et maintenant, bien entendu, quel est le résultat de ceci ? Un dataframe, qui comporte uniquement les colonnes et tous les index, toutes les lignes de la table et seulement les colonnes que j'ai choisies. J'ai fait en quelque sorte une projection si on le rapporte à l'algèbre relationnelle. Eh bien, je vais faire la somme de ce résultat. Voilà, alors, j'ai une somme des valeurs de toutes les colonnes mais ce que je veux, c'est travailler sur l'axe des y. Voilà la quantité d'hectolitres totale d'AOP. On se souvient que j'ai récupéré seulement les 3 premières colonnes de mon tableau qui correspondent à des ventes de vins AOP. Et, ben voilà, j'ai le blanc, le rosé, et le rouge. Admettons que je veuille ajouter cette information dans mon dataframe, directement. Je peux très très bien créer des nouvelles colonnes qui comportent des résultats de calcul ou des choses assez compliquées, d'ailleurs. Ben très simplement, maintenant, j'ai ma somme. Et je peux l'attribuer à quelque chose, je vais l'attribuer à une colonne comme ceci, que je vais appeler "total". Et voilà ! Donc, le résultat mon calcul va être stocké dans une colonne supplémentaire qui va s'appeler "total", on va regarder le résultat… Voilà qui est là, et donc c'est bien le total des blancs, rosés et rouges puisque j'ai travaillé uniquement ici, sur mon tableau de colonnes. J'ai fait la somme de cette « sous-dataframe », on pourrait dire, et j'ai bien fait la somme sur le bon axe.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !