Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Découvrir la data science avec Python

Analyser les données avec NumPy

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans cette vidéo, vous utiliserez NumPy pour analyser les données de votre tableau. Par exemple en faisant une somme cumulative ou en utilisant des fonctions d'intersection et de recherche d'unicité.
07:07

Transcription

Donc je suis toujours dans iPython on a toujours notre tableau a qui comporte des données structurées "départements", nombre de "déclarants" par département, et je vais vous montrer quelques fonctions assez simples qui vont vous permettre de travailler avec cet ensemble de données en fait ce tableau de données. Notamment, si je prends mon tableau à une dimension de "déclarants" c'est-à-dire le nombre de déclarations pour être plus précis, eh bien, je peux, bien entendu, travailler avec des fonctions qui vont me retourner des agrégats ou qui vont faire des calculs sur l'ensemble du tableau. Notamment, au plus simple, la somme, que je peux appeler en tant que méthode de l'objet si vous voulez, si on parle un peu langage orienté objet, mais que je peux également appeler à partir du namespace de Numpai comme ceci, en passant mon tableau en paramètre. La différence ici est nulle, on a la même chose, il peut y avoir certaines méthodes de l'objet qui modifient l'objet lui-même, cette syntaxe ici garantit toujours qu'on passe un paramètre qui est le tableau et on ne modifie jamais le tableau dans le paramètre, on retourne toujours un nouveau tableau. Si j'ai la somme, j'ai évidemment des choses comme la moyenne, qui s'appelle mean. Des choses comme le min ou le max, bien entendu. Donc rien d'extraordinaire. Avant, revoyons notre tableau, et ensuite on va en tirer une somme cumulative donc un total cumulatif qui bien sûr commence à 468, ajoute 422, ajoute 153, etc. Bien entendu, je n'ai pas modifié le tableau source, évidemment. Mais j'ai un nouveau tableau, et chaque élément du tableau est la somme cumulative de tous les éléments précédents. J'ai d'autres méthodes, d'autres fonctions comme notamment des fonctions d'algèbre linéaire qui vont nous permettre de travailler avec notre tableau qui est un vecteur, finalement, et puis, des fonctions, qu'on pourrait appeler relationnelles, qu'on utilise souvent dans le langage SQL, par exemple comme l'union, l'intersection… Je vais vous montrer ça, notamment une fonction qui s'appelle unique. Et je vais lui envoyer d'ailleurs en paramètre mon tableau à une dimension qui est donc ceci, hein, qui va me retourner, donc vous voyez un vecteur, trié, un tableau… des valeurs uniques qui ont été trouvées ici. C'est-à-dire, par exemple, 1 et 1, 2… et 2, et 3, donc… On a unifié les valeurs, on les a triées et on retourne le résultat. De la même façon, vous avez vous avez donc des fonctions comme l'intersection qui s'appelle intersect1d pour bien définir qu'on est sur une intersection sur un tableau à 1 dimension. Et donc on va faire l'intersection entre un tableau et un autre. Alors ici, puisque j'ai à peu près que ça sous la main, je vais utiliser les départements, et voir s'il y a des valeurs qui se trouvent à la fois dans les nombres de déclarations et dans les départements. Oui, 1-2-3-4, évidemment on s'arrête à 83 on va pas plus loin. Donc voilà, c'est assez compréhensible. Numpai, ajouté à la puissance de Python, va vous permettre de manipuler vos données et de faire des analyses de données sous forme de calculs vectorisés, c'est-à-dire de calculs sur l'intégralité de tableaux de données et c'est ce qui va vous permettre d'analyser vos données numériquement Alors, deux choses encore. Comment est-ce que vous prenez votre tableau que vous avez soigneusement créé, généré, analysé, et vous voulez le sauvegarder ? Eh bien, vous pouvez facilement faire un save. Vous passez en paramètre le nom du fichier. Je vais l'appeler « vins ». Ce serait bien de mettre une extension mais c'est pas très très grave, et puis, je vais prendre mon tableau et le voilà sauvé, on va regarder d'ailleurs dans notre répertoire sur "D:"… Voilà, voyez que j'ai « vins », et l'extension a été choisie automatiquement, NPY. Le contenu est un contenu binaire et je peux bien entendu faire un load donc puisque le save a conservé toutes les informations de type, etc. de mon tableau, il me suffit de faire… ceci, et, évidemment, avec le namespace, c'est encore mieux. Et… avec l'extension, c'est encore mieux, voilà. Et donc b est la copie. D'ailleurs à propos de copie, vous pouvez très bien faire ceci, c est égal à a ou b, peu importe, copy. Et c'est une bonne pratique, vous copiez votre tableau, vous travaillez un petit peu avec, comme ça vous détruisez pas les données sources. Alors à propos de l'analyse de nos données pourquoi ne créerions-nous pas, maintenant, par rapport aux déclarations et à leurs départements, eh bien, un petit graphique, avec Matplotlib, qui va nous montrer, par exemple des barres. On va faire ça ! On va se rajouter pylab… de façon à pouvoir avoir un rendu de Matplotlib en qt4, c'est-à-dire, finalement de voir quelque chose. Et je vais utiliser Matplotlib en créant un plotting en bas, et puis en disant « qu'est-ce que je veux sur l'axe des x ? qu'est-ce que je veux sur l'axe des y ? » L'axe des x, je veux le "département". Alors est-ce que je l'ai quelque part ici ? Non, je vais le retaper. Sur les y, je veux le nombre de déclarants. Et puis, oh je vais me choisir une petite couleur donc il y a un certain nombre de paramètres, bien sûr, voilà un paramètre nommé. Je vais dire, allez, c'est du vin donc je vais le mettre en rouge. Et voilà qui est bon, donc je vois que on est quand même ici sur beaucoup de déclarations dans les départements qui doivent correspondre à la Gironde, ça paraît logique. Et puis, ici, probablement, allez 51, la Marne, la Champagne, et ici 33, ça doit être la Gironde. Donc, ça a l'air d'être assez logique, tout ça. Et donc voilà on a fait une analyse très simple de ces données avec les outils à disposition qui, donc pour l'instant est Numpai, mais on va voir Pandas, qui est une bibliothèque qui s'appuie sur Numpai et qui donne beaucoup plus de possibilités en termes de types de données, de structuration de données, avec un dataframe et une série, et puis des méthodes de travail sur ces données.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !