Découvrir la data science avec Python

Importer un fichier dans un array

Testez gratuitement nos 1304 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Votre formateur vous montre ici que grâce à la méthode loadfromtxt du tableau NumPy, vous pouvez importer un fichier CSV très simplement.
05:34

Transcription

On va commencer à travailler avec un petit jeu de données mais de façon à avoir quelque chose d'un peu concret à se mettre sous la dent. Alors ce que j'ai fait c'est que je suis allé sur la plateforme de l'Open Data du gouvernement français data.gouv.fr J'ai cherché des jeux de données qui concernent le vin. Donc évidemment j'en ai trouvé pas mal. Et puis j'ai récupéré un fichier Excel qui est ici qui est les stocks à la production et au commerce 2014-2015 par département. Donc j'ai ici par département le nombre de déclarants, les AOP, les IGP, etc. Et puis le nombre d'héctolitres j'imagine. Mais j'ai gardé simplement le département et puis le nombre de déclarants pour savoir à peu près combien il y avait de producteurs finalement par département. C'est très très simple. J'ai gardé ces deux informations. Je les ai posées dans un répertoire sur mon disque qui est ici [D:] data. J'ai mis ça sous production2015.csv donc j'ai simplement exporté le contenu de mon Excel pour que ce soit plus simple à travailler. On va travailler avec des données assez simples dans NumPy si on veut faire de l'analyse de données plus poussée avec des fichiers de données spécifiques on va plutôt utiliser Pandas. Donc ça donne ceci. J'ai fait ici une première ligne d'en-tête pour mettre simplement "département" et "déclarant". Ça c'est le numéro du département. J'ai mis un point-virgule et puis le nombre de déclarants. Alors j'ai fait un en-tête et puis des points-virgules spécifiquement pour être un petit peu plus compliqué pour vous montrer dans Numpy comment on va importer le fichier dans un array. Donc voilà mon fichier. On va pouvoir partir maintenant avec Numpy et j'ai déjà importé Numpy et puis je suis dans IPython donc je vais regarder où je suis vous vous souvenez. Je vais donc faire un CD. Vous vous souvenez que je suis en Automagic donc je peux très bien faire ça. Et puis je vais avec Numpy importer mon fichier dans un array. Je vais l'attribuer à une variable et puis je vais utiliser une méthode pour charger le contenu. Alors il y a une méthode relativement simple qui s'appelle loadtxt mais comme je vous le dis en général utilisez plutôt Pandas pour ça. Mais si vous voulez aller plus loin vous avez une autre méthode qui s'appelle genfromtxt. On va utiliser loadtxt qui est ici et on va lui passer les paramètres nécessaires c'est-à-dire d'abord bien sûr le nom du fichier ça tombe bien donc on est ici dans le répertoire qu'il faut donc on va prendre le fichier dans le répertoire courant. Il s'appelle production2015 et puis j'ai bien entendu une complétion syntaxique. Voyez qu'on me propose production2015. J'ai fait un Tab bien sûr. Alors on pourrait faire un premier essai ça ne va pas forcément donner grand-chose parce que on a d'abord un problème de conversion. Numpy voudrait récupérer déjà la première ligne et puis faire du float qui est à peu près son type de données par défaut. Donc on va d'abord devoir lui dire que non, non, non, on ne veut pas traiter la première colonne ce qui est absolument très facile. On va ajouter un paramètre nommé qui s'appelle skiprows et on va dire bien entendu combien de lignes au début du fichier on veut éviter. 1 Ensuite, on va avoir could not convert string to float et on voit bien le point-virgule. Par défaut la séparation qui est considérée par loadtxt c'est l'espace donc ici j'ai un point-virgule. Donc évidemment je vais devoir lui spécifier le delimiter. Il sera en point-virgule. C'est pas mal. On va voir le contenu de "a" et je m'aperçois que je suis avec des float comme vous pouvez le voir et je suis même en notation scientifique. Pourtant, on se souvient, que le contenu ce sont juste des codes de départements et le nombre de déclarants, donc ce sont des entiers. Tout ça c'est des entiers. Et donc on va devoir lui indiquer également les types de données qu'on veut manipuler. Donc je recommence. Et puis je vais ajouter un paramètre qui s'appelle dtype, que vous connaissez, pour dire, et je vais l'exprimer sous forme de tableau par exemple, et je vais dire, premièrement, je vais faire une virgule, deuxièmement, alors premièrement et ici je vais pouvoir donner un nom de colonne. Je vais dire simplement "département", ça va me servir ensuite d'indice donc c'est très pratique, et puis je vais lui dire c'est un entier et je pourrais d'ailleurs -il faut que je le préfixe- je pourrais d'ailleurs dire là je suis sur un entier sur 8 bits. Ensuite, les déclarants j'abrège un petit peu on va faire un entier 32 bits. Et voyons ce que ça nous donne. Voilà qui est mieux. Donc vous voyez que j'ai ici un tableau avec quelque chose qui n'est pas un tableau à deux dimensions mais on dirait tout à fait un tuple Python ça ressemble effectivement presque à un tuple et ça s'appelle un tableau structuré ou structured array en Numpy. Donc on va voir comment on manipule ça mais on a importé déjà notre fichier.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !