Découvrir la data science avec Python

Découvrir les séries en pandas

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Commencez ce chapitre en découvrant ce qu'est le type de données séries dans pandas et comment le manipuler à la façon d'un tableau de NumPy.
07:35

Transcription

Parlons maintenant de Pandas. Pandas, DA, pour Data Analysis. Donc une bibliothèque d'Analyse de Données pour Python, qui est basée sur Numpai. L'auteur de Pandas, qui s'appelle Wes McKinney, qui a d'ailleurs écrit un livre chez O'Relly qui s'appelle Python for Data Analysis comme vous pouvez le voir ici, Eh bien, l'auteur de Pandas travaille dans le milieu bancaire, et il avait besoin, pour un employeur, de développer une bibliothèque qui lui permette de faire de l'analyse de données avec les contraintes spécifiques de son employeur. Numpai ne suffisait pas, donc il a décidé de bâtir une bibliothèque par-dessus Numpai qui va se baser sur des ndarrays, et, ce sont des choses qui évoluent d'ailleurs à travers les versions de Pandas, donc disons qu'à la base, ça s'appuyait sur Numpai, et Pandas permet une analyse de données beaucoup plus riche avec deux types de données qui évoluent par rapport aux ndarrays, qui sont les séries et les dataframes. Donc on va voir un peu ça. Bien entendu Pandas est intégré dans notre Anaconda, dans notre distribution de iPython et des outils de sciences des données, et puis, je vais déjà vous montrer ce qu'on entend par les « séries ». Et pour vous montrer ça eh bien je reviens dans mon iPython, j'ai toujours Numpai parce que j'ai créé finalement à partir de mon CSV eh bien toujours mon ndarray. Et puis on va partir de ça, et puis, ensuite, on intégrera directement dans une structure purement Pandas à partir de notre fichier CSV, mais pour l'instant on va partir là-dessus. Donc, première chose à faire, eh bien, j'importe Pandas, je vais mettre pd, pour avoir le namespace à disposition. Et je vais créer une série. Donc une série, c'est toujours un tableau à une dimension c'est une sorte de dictionnaire, finalement. vous avez un tableau à une dimension, qui est fortement typé, et puis vous avez un index. Donc la différence entre un dictionnaire Python et une série, c'est comme on l'avait dit avec Numpai, on a un type spécifique dans la valeur de notre série, ce qui a permettre d'être beaucoup plus efficace en mémoire et en calcul. Et puis on a un index, donc on est comme dans un cas de dictionnaire où on va pouvoir faire référence à un élément par rapport à son index. Je vais créer une série qui s'appelle s. Et puis, je vais partir de Pandas, et je vais lui dire « ben crée-moi une series ». En paramètre, je peux lui donner les valeurs et l'index, donc je vais dire ben, mes valeurs, c'est finalement le contenu de a, vous vous souvenez. Je vais faire ça comme ça. A, on a donc ici notre département qui est là. Et puis on a nos déclarants. Donc qu'est-ce que je veux comme valeur, je veux les déclarants, le nombre de déclarants, donc je reprends mon series, je vais dire d'abord a… declar… et admettons que je fasse que ça. Qu'est-ce que j'ai dans s ? Eh bien je vais avoir un type qui a été récupéré de mon array, c'était un int32, un entier de 32 bits. Et vous voyez que j'ai donc une structure qui me donne mes valeurs de nombre de déclarants et puis un index qui a été créé automatiquement, 0-1-2-3, ok. Ce que je vais faire, c'est que je vais compléter ici ma déclaration de la série pour ajouter un index. Avec un paramètre nommé, et je vais lui dire « eh bien l'index de ces valeurs, prends-le avec les départements. » Et j'ai oublié simplement… voilà. Voilà, ceci. Donc tout à fait simple. Je me retrouve avec une série de valeurs ça s'appelle une série aussi parce qu'on va pouvoir aisément traiter des séries de temps, également. Et l'index maintenant correspond à la valeur du département. Aussi bien l'index que la valeur est fortement typé, une fois de plus. Donc je peux faire référence à par exemple, le département 55, parce que c'est l'index. Mais je ne peux pas faire référence à un département 55 qui serait une chaîne de caractères parce qu'on me dit, « ben voilà y'a une errreur de clé ». Alors tout ceci m'est affiché par l'affichage d'iPython et d'Anaconda mais ça c'est la véritable erreur. On ne trouve pas la clé 55 en chaîne de caractères parce qu'elle n'existe pas, il n'existe que 55 en entier, donc c'est pas du tout la même chose. J'aurai la même erreur si je faisais quelque chose comme ça, avec une clé qui n'existe pas, on me dit ben non, ben non. Ok. Juste avant d'aller un peu plus loin, je reprends ma création de série, il y a un troisième paramètre si vous en avez besoin, qui est le nom de la série. La série peut-être nommée. On travaille plus avec Pandas, presque comme une base de données, c'est-à-dire qu'on va créer des dataframes qui sont des sortes de tableaux, et on va créer des séries, on va pouvoir les nommer, on va pouvoir travailler avec différentes séries, par exemple faire des jointures, et donc, il y a vraiment un sens d'analyse de données avec des structures de données multiples, si on veut, et qu'on va donc nommer au besoin, par exemple je pourrais appeler ça, ben voilà, les "déclarants". Et, maintenant je peux retrouver le nom simplement, en demandant le nom de ma série. Donc sachant cela, on a vu Numpai, on est un peu comme à la maison, c'est-à-dire qu'on peut faire référence, on l'a vu, à un index. On peut faire référence à l'index avec un opérateur de slicing, donc je peux faire tout à fait ça, vous vous souvenez, pour avoir une valeur sur deux. 3, 5… Donc, l'opérateur de slicing fonctionne et on va le traiter un peu comme un ndarray, finalement. On peut faire quelque chose comme ça. Par exemple, vous vous souvenez du tableau de booléens qui nous permet de filtrer, je peux utiliser le même raisonnement à l'intérieur je peux dire par exemple je veux toutes les valeurs qui sont supérieures à la moyenne, par exemple, ou au médian. À la valeur médiane, donc… je vais prendre ça… et voilà, ici, j'ai toutes les déclarations dont le nombre de déclarations est supérieur à la valeur médiane de la déclaration. Et vous voyez qu'on me retourne chaque fois le même, maintenant, "déclarants", et puis le type, int32, de ma série. Alors je peux le traiter comme un ndarray, je peux également le traiter comme un dictionnaire Python, j'ai aussi cette possibilité, c'est-à-dire que je peux l'utiliser par exemple dans des boucles, On avait dit 55, voilà une syntaxe tout à fait Python, est-ce que 55 est dans s ? Eh bien oui, on a trouvé-- l'index 55 il n'est pas la puisque je l'ai pas extrait, il était inférieur à la médiane. Et puis, je peux utiliser aussi des méthodes purement de type dictionnaire Python, comme par exemple un get. Alors on se souvient, voilà la clé n'existe pas mais j'essaie de faire un get dessus, et là au lieu d'une erreur, on ne me retourne rien du tout. Donc je peux tout à fait l'utiliser comme un dictionnaire Python. Et bien entendu, cette série est aussi capable comme un ndarray, d'utiliser des opérations vectorisées, de travailler sur l'intégralité du tableau si je fais "s + 22"… Eh bien, j'ai ajouté 22 à tous les éléments de mon tableau, enfin de ma série, pour être plus précis. Bien voilà, on a vu la série, c'est pas très très compliqué, et on va parler du dataframe.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Votre/vos formateur(s) :
Date de parution :25 août 2016
Durée :2h16 (25 vidéos)

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !