Découvrir la data science avec Python

Nettoyer le dataframe

Testez gratuitement nos 1300 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Les propriétés du dataframe sont très utiles pour nettoyer le résultat de l'importation et pour ne conserver que les lignes nécessaires.
04:15

Transcription

Nous avons donc presque importé correctement notre partie de feuille Excel. On a des Not a Number, c'est pas très très agréable, et, ici à la fin, on a toujours des Not a Number on a un total… Finalement on s'en fiche du total on va pouvoir le calculer très bien avec Pandas, et puis on a ça, qui comporte des Not a Number. Pour un nettoyage de lignes qui comportent des NaN, des Not a Number, Pandas a déjà une méthode très pratique qui s'appelle drop. Alors y'a plusieurs drop. Vous avez un drop_duplicates qui est aussi très pratique, on prend les lignes, on regarde s'il y a des doublons, on les supprime. On a un drop pour supprimer des choses plus précisément, et puis on a un dropna, qui, vous vous en doutez, correspond à Not a Number. Donc je vais utiliser dropna, et puis, je vais lui dire, « eh bien fais-moi les choses inplace. » Alors vous avez beaucoup de méthodes qui retournent un nouvel objet, ou, si vous leur donnez le paramètre inplace, comme son nom l'indique, modifie l'objet existant. Donc je vais le mettre à TRUE. On essaie ça, et, on regarde quand même ce que ça donne, évidemment. Alors ça a l'air pas mal du tout, on n'a plus de NaN ici, Par contre sur la fin on a toujours le total. Alors la façon dont dropna fonctionne, c'est que, je vais le commenter et puis on va revoir ce qu'on avait, par défaut, dès qu'il trouve un Not a Number quelque part dans la ligne, alors ici il y en a partout sur la première ligne, c'est très facile, y'a partout des Not a Number mais imaginez dans les Vosges, par exemple vous auriez Not a Number ici, eh bien Vosges serait également supprimé, donc ça c'est la particularité de dropna, dans son comportement par défaut. Ici, je pourrais m'en contenter et puis supprimer les totaux, vous vous souvenez ça ça m'embête aussi, je veux pas le total, ou alors ce que je peux faire, c'est dire : « tiens tiens tiens, j'ai 1, 2, 3, 4, 5… dernières lignes, qui m'embêtent, » alors je vais regarder, d'ailleurs. Je vais utiliser la fonction tail je vais prendre donc les cinq derniers, je vais voir de quoi il s'agit. Effectivement, 1, 2, 3, 4, 5… Tout ça ça m'intéresse pas. Et donc, si je prends cette fonction tail, vous voyez qu'elle me retourne finalement des lignes, une partie de mon dataframe. Je vais pouvoir utiliser de cette fonction tail la propriété index qui va me donner eh bien, un index, avec les positions d'index. Et je vais pouvoir l'utiliser à l'intérieur de mon drop donc je vais plus utiliser dropna, mais je vais faire un drop et je vais indiquer quels sont les index donc voilà une liste d'index qui m'intéresse que je veux supprimer. Et je vais utiliser inplace à TRUE. On va voir ce que ça donne. Alors voilà qui est mieux. Et alors vous aurez noté d'ailleurs que même cette ligne a été supprimée. Alors si vous vous souvenez, je vais commenter. On va comprendre pourquoi. Disons que c'est un effet bienvenu, mais collatéral… de l'index. Parce que, si je regarde mon index, j'ai ici des NaN. Et donc, si je regarde ceci, finalement, la valeur de l'index de cette ligne, c'est NaN également, donc il a supprimé tous les index qui avaient la valeur NaN, même s'ils étaient au début. Donc ce que j'ai fait, c'est que j'ai pris les cinq derniers, j'ai regardé leur valeur d'index et j'ai demandé avec le drop de supprimer toutes les lignes qui avaient cette valeur d'index, et la première également. Donc, dans notre cas, ça a plutôt bien marché on va continuer comme ça, au lieu du dropna, on va plutôt utiliser cette méthode, et on a donc… Eh ben voilà ! Un très joli dataframe avec lequel on va pouvoir travailler.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !