Les fondements du Big Data

Aborder le métier de data scientist

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Le métier de data scientist (expert de la gestion et de l'analyse de données) est d'actualité. Découvrez quelles sont ses compétences.
06:44

Transcription

La « Data science », qu'est-ce que c'est ? Le « Data scientist », quel est son travail ? D'abord, la « Data science », ce n'est pas quelque chose de totalement figé, ce n'est pas une technologie, ce n'est pas un outil, c'est un faisceau de technologies qui vont permettre de faire le travail relativement complexe, assez hétérogène du « Data scientist », mais on peut le résumer comme ceci ; c'est un « Data mining massif ». Vous allez me dire : « le data mining, c'est quoi » ? C'est un concept déjà existant, bien entendu, mais la « Data science » bâtit sur le « data mining », ses outils et ses concepts. « Data mining », c'est pouvoir analyser miner en quelque sorte des données, comme si les données étaient une mine dans laquelle on va chercher quelques pépites donc on va miner ces données de façon à pouvoir les analyser avec des algorithmes, avec des outils, avec des méthodes de traitement de façon à en tirer quelque chose : un enseignement, une information, des résultats, des agrégats, etc. Donc le travail du « data scientist », c'est ça. La « Data science », d'un point de vue plus technique, c'est appliquer, finalement, des fonctions sur des masses de données pour répondre à des questions et pour bâtir aussi des modèles d'analyse. Quand je dis appliquer des fonctions, ça veut dire qu'on va définir du traitement, on va l'écrire dans un langage de programmation, parfois, langage de programmation assez simple, comme « Python », par exemple, et on va lancer ces analyses sur les données qui sont distribuées dans notre « cluster de machines ». On va, pour répondre à ces questions, utiliser des algorithmes spécifiques, des algorithmes de type statistique, par exemple. Ces algorithmes sont regroupés sous le terme de « Machine learning ». Le « Machine learning », c’est une collection d'algorithmes, certes, mais avec quelque chose d'en plus, ce sont des algorithmes qui vont pouvoir apprendre de leur utilisation s'améliorer, s'enrichir des données, elles-mêmes, pour affiner les recherches. Donc le travail du « Data scientist », c'est à la fois de faire des recherches avec des langages, comme « SQL », par exemple, mais aussi d'avoir suffisamment de connaissances en statistiques pour pouvoir utiliser aussi des algorithmes de « Machine learning » pour pouvoir les affiner et utiliser aussi cette fonctionnalité du « Big Data » qui est l'utilisation d'algorithme statistique de « Machine learning ». Quels outils sont utilisés par le « Data scientist » ? Il y a des outils spécifiques, notamment, « Apache Spark » qui est très populaire, il y a un outil plutôt récent qui s'appelle « Apache Flink » qui devient populaire, également. Il y a des outils qui sont « packagés » par des éditeurs de logiciel, par exemple, « Impala » de « Cloudera ». Ces outils vont regrouper tout ce qu'il est nécessaire pour un « Data scientist », d'avoir sous forme de langage, de méthode de traitement, de système de distribution pour pouvoir faire son travail. Pourquoi utiliser des outils intégrés, comme « Apache Spark » ? Parce qu'il y a énormément d'outils différents dans le monde du « Big Data », maintenant et que mettre en œuvre différents outils et les faire coexister, par exemple, langage de programmation, outil de traitement, outil de stockage peut être assez difficile. Il existe des distributions, celles de « Cloudera », par exemple, celles « d'hortonworks » qui simplifient les choses, mais un système comme « Apache Spark », dont on va reparler, peut aider nettement la vie d'un « Data scientist ». La première étape d'un « Data scientist », est souvent de convertir les données pour en permettre l'analyse, ce qu'on appelle en anglais du « Data wrangling » ou du « Data munging ». Le traitement des données. Comme je vous le disait, on a souvent, des données brutes qui sont stockées dans un système de « Big Data ». Le « Data scientist » doit être capable de nettoyer ses données, de les structurer, par exemple, avec des outils comme « Spark », de générer des vues structurées, par exemple, sous forme de tableau, ce qu'on appelle les « Data frames » pour pouvoir en faire, ensuite, l'analyse. Et ensuite, le « Data scientist » fait un travail qu'on va appeler un travail « ad-hoc » d'analyse des données avec les outils qui sont à sa disposition, par exemple, le langage « SQL », par exemple, un langage de « Script » comme « Python », par exemple, un langage orienté statistique comme « R ». Et de façon interactive, il va analyser les données, restructurer les données, chercher comment analyser ces données, bâtir des modèles, bâtir des « Scripts » pour pouvoir obtenir les résultats cherchés ou espérés. Lorsque ce travail « ad-hoc » est fait, le « Data scientist » va pouvoir industrialiser son travail, peaufiner, par exemple, les paramètres des algorithmes de « Machine learning », créer de réels « Scripts » à partir de son travail interactif et « ad-hoc », pour automatiser les traitements, bâtir des graphes ou des tableaux de bord avec des méthodes de visualisation et ensuite, placer ce travail industrialisé, prêt, sur un gestionnaire de « clusters », automatiser le traitement de façon à ce que les utilisateurs puissent en bénéficier. Un « Data scientist » doit avoir un faisceau de compétences, c'est pour ça qu'il n'est pas facile de trouver d’excellents « Data scientists » parce qu'ils doivent avoir des capacités multiples ; capacités de programmation, dans des langages comme « SQL », comme « R », « Python », par exemple, et d'architecture aussi ; comprendre comment fonctionne le système. Il faut que le « Data scientist » ait un esprit scientifique, qu'il cherche dans les données, la preuve, qu'il cherche comment extraire ces informations avec la meilleure véracité possible et il faut qu'il puisse improviser, avoir des idées, être un peu créatif pour chercher ses réponses. Il doit avoir des compétences statistiques de façon à utiliser des algorithmes de la bonne manière parce que les statistiques ne s'improvisent pas et très important, également, une bonne connaissance du « business », du domaine dans lequel, il évolue, car les compétences techniques ne suffisent vraiment pas pour un « Data scientist ». Il faut comprendre quelles sont les exigences, les critères, les habitudes du domaine, par exemple, industriel dans lequel il évolue, c'est très important pour un « Data scientist ».

Les fondements du Big Data

Découvrez les enjeux, les outils et les possibilités du Big Data. Familiarisez-vous avec les concepts du Big Data et soyez en mesure de gérer d’importants volumes de données.

1h47 (26 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :13 juin 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !