Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Découvrir la data science avec Python

Découvrir les outils

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Commencez par télécharger et installer les outils que vous utiliserez, c'est-à-dire la distribution Anaconda qui propose IPython et les Notebooks.
07:35

Transcription

Faisons un tour d'horizon des outils que nous allons utiliser. Python bien entendu et puis un certain nombre de packages de Python propres à l'analyse des données. Comme il s'agit d'un sujet très très très à la mode, vous avez énormément de distributions de ces packages, vous avez plusieurs packages très classiques et puis beaucoup de distributions. Celle que j'ai utilisée, ici je suis sur Windows, j'aurais pu être sur Linux ça aurait été encore mieux et on travaille beaucoup sur Linux dans ce cas-là mais j'enregistre ces vidéos sur Windows et puis, pour faire de l'analyse de données, le système d'exploitation sous-jacent n'est pas vraiment important. Donc, on va ici voir les choses sous Windows mais vous aurez exactement les mêmes comportements sous Mac OS X ou Linux et vous aurez beaucoup de distributions qui vous « packagent » tout ça sur différents systèmes d'exploitation. Autre note, j'ai utilisé ici une distribution qui s'appelle Anaconda qui vient d'une société qui s'appelle Continuum Analytics. C'est une distribution qui est libre à la base puisqu'elle comporte des packages libres mais qui « package » la chose avec des visualiseurs particuliers et donc que vous pouvez utiliser avec de la licence mais vous pouvez très bien utiliser une version de Python comme la 3.5 et installer différents packages avec par exemple pip, le package installer pour Python. Donc plusieurs solutions: une distribution déjà existante, Anaconda par exemple, ça peut être également SciPy qui est une distribution libre qui comporte également vous voyez un certain nombre de packages très très utilisés dans le Data Science avec Python et puis, autre proposition, Open Dreamkit, qui est un projet qui concerne des universités européennes donc qui est un projet communautaire libre et académique qui, également, offre un environnement avec un certain nombre de packagesOpen Source pour faire de l'analyse de données et des mathématiques. Le but de SciPy et de Open Dreamkit est plus dans le sens d'un environnement pour pouvoir faire des mathématiques mais aussi de l'analyse de données comme on peut le faire avec Matlab mais en ayant un système complètement libre basé sur Python et des packages. Le projet Anaconda remplit en partie les mêmes offices mais il est plus dirigé vers l'analyse des données, vous voyez par exemple ici une liaison entre Anaconda et Cloudera c'est-à-dire une distribution de Hadoop pour faire de l'analyse sur du Big Data. Bref, on va voir ça, de toute façon, vous avez à l'intérieur de ces packages des éléments, si je regarde ici la package list d'Anaconda, il y a un certain nombre de packages qui sont propres à Anaconda -là il y en a peut-être beaucoup- mais si je reviens sur SciPy on a des bibliothèques numériques comme Numpy ou Sympy qui sont des bibliothèques qui offrent des méthodes, des fonctions, des objets pour un certain nombre d'opérations mathématiques. Numpy par exemple va vous permettre de manipuler des tableaux et donc de faire des calculs sur des tableaux, de façon simplifiée. Vous avez la bibliothèque SciPy qui vient du projet SciPy et qui est une bibliothèque de mathématique. Vous avez une bibliothèque qui va être présente à peu près partout qui s'appelle Matplotlib qui comme son nom l'indique va permettre de faire du plotting c'est-à-dire de créer des graphes et des graphiques. Et puis vous avez l'indispensable IPython qui est une console interactive qu'on va voir, qui va nous permettre de saisir des commandes Python et de voir directement le résultat. Je vais revenir là-dessus car c'est très important. Et puis vous avez une bibliothèque qui s'appelle Pandas et qui, elle, est spécifique pour l'analyse des données et la manipulation de structures de données et son analyse. Tous ces projets sont bien entendu libres. Je vous ai mis ici numpy.org sur la page de Numpy ou bien de matplotlib et en général vous pouvez simplement installer une distribution spécifique qui va regrouper ces outils comme je l'ai fait avec Anaconda. Avant d'entrer dans les détails techniques encore un mot sur IPython. IPython est un projet qui date maintenant de quelques années qui a eu beaucoup d'améliorations, beaucoup de travail, un projet très intéressant, qui simplement crée une invite interactive à base de Python. Donc, vous ouvrez une console, on va le voir, vous tapez des commandes et vous obtenez immédiatement le résultat. L'avantage de IPython c'est que vous avez quelque chose comme un Shell pour Python qui est très évolué qui est très pratique à utiliser et qui va vous donner à peu près les mêmes fonctionnalités voire plus que des Shell comme Bash. Donc vous pouvez taper vos commandes, vous voyez les résultats. Vous voyez également ici qu'on a des graphes. Vous pouvez aussi générer des graphes avec matplotlib et obtenir le résultat dans une autre fenêtre. Je vais vous montrer comment on fait ça. Donc IPython c'est simplement une saisie de commandes interactive et des résultats. Et c'est très pratique pour faire de la Data Science ou des maths parce que vous tapez des commandes vous tapez des formules par exemple dans le langage Python et vous obtenez directement le résultat et en Data Science on essaye de comprendre un peu ce qu'on a comme données. Donc on ne va pas taper des scripts complets ligne par ligne de 50 lignes de script puis ensuite l'exécuter pour voir ce que ça donne. Ça va quand même être plus pratique de taper des commandes pour analyser un petit peu de façon interactive les données qu'on a à visualiser, de voir à peu près à quoi elles ressemblent, et d'explorer petit à petit, d'une façon donc interactive, et quand l'exploration est faite, lorsqu'on a compris, lorsqu'on est prêt on va faire des scripts pour industrialiser tout ça. Ça c'est un premier point. Ensuite, IPython s'est enrichi de ce qu'on a appellé les IPython Notebooks. Je vais vous montrer également. Et l'idée du Notebook c'est pourquoi n'intégrerait-on pas, dans une page web, du code avec son résultat, quelque chose qui va s'exécuter, qui va être interactif, et puis des commentaires, du formatage, bref quelque chose qui a un Notebook, très pratique quand on fait des maths ou de l'analyse de données, on met du code, des résultats, et on montre aussi des commentaires ou de la documentation qui va avec. Très récemment, cette notion de IPython Notebook a été réorganisée sous forme d'un Kernel de Notebook qui s'appelle Jupyter et qui va permettre de créer des Notebooks avec d'autres langages que Python si nécessaire donc il y a eu une séparation entre IPython et Jupyter. Je vais vous montrer tout ça mais Jupyter est maintenant ce qu'on appellait les IPython Notebooks. Et un Notebook peut être sauvegardé dans un format, -c'est un fichier finalement- et réouvert chez vous. Voyez ici qu'on a la possibilité de partager nos Notebooks. C'est une fonctionnalité très riche et très intéressante pour partager des formules, des calculs, des analyses de données, des analyses mathématiques et pour pouvoir avoir dans un environnement Python à la fois du code et des commentaires assez simplement.

Découvrir la data science avec Python

Prenez en main les outils utilisés pour la data science avec Python, d'un point de vue technique. Pour cela, explorez les deux bibliothèques importantes, NumPy et Pandas.

2h16 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 août 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !