Les fondements du machine learning

Définir le clustering

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Découvrez ce que sont les algorithmes de clustering, une méthode d'analyse des données par partitionnement.
04:31

Transcription

On attaque maintenant un nouveau chapitre qui va concerner l'apprentissage non-supervisé. Je vous rappelle que l'apprentissage non-supervisé c'est d'apprendre sur des données, des images ou des vidéos, qui sont de toute façon aussi des données, qui n'ont pas d'étiquette et donc le but c'est de créer un concept qui permet de les analyser à partir justement d'un concept qui n'est pas encore connu à l'avance. On va commencer par le clustering. Les algorithmes de clustering, ou dits de regroupement, sont utilisés pour grouper des objets, comme leur nom l'indique, ou des individus ou des images ou des vidéos selon une similarité détectée dans les variables descriptives ou prédicteurs. On ne connaît pas l'étiquette à l'avance, c'est ça vraiment l'idée qu'il faut bien comprendre. Ces algorithmes visent la mise en évidence de groupes homogènes d'individus dont on dispose seulement des caractéristiques descriptives. Ces groupes homogènes sont appelés des clusters et partagent les caractéristiques suivantes : premièrement il existe une région continue et relativement dense de points ou d'individus similaires eu égard à des variables dans un cluster. Deuxième point, il existe une région continue et relativement déserte entre des points ou des individus appartenant à des clusters distincts. Par exemple l'illustration que vous voyez maintenant sur votre écran illustre bien ces deux caractéristiques. On voit bien qu'on a des formes de nuages qui sont assez lisses, ça c'est le premier point donc c'est une région relativement continue et dense. Par contre chaque région continue et dense est suffisamment éloignée des autres donc c'est typiquement l'idée. Les algorithmes qui sont capables de faire ça, en machine learning, appartiennent à la catégorie des apprentissages non supervisés, dans le sens, et je me répète, où les clusters qui seront formés à la fin de l'apprentissage ne sont pas connus à l'avance. Maintenant ce qu'il faut c'est définir la différence entre clustering et classification. En classification on a besoin à la fois de la matrice X des variables explicatives ou descripteurs ou appelés également fichers et du vecteur Y, la variable à prédire pour l'apprentissage alors qu'en clustering, l'apprentissage se fait seulement sur la matrice X des variables explicatives ou descripteurs, à nouveau, c'est l'essence même du non-supervisé. De plus les algorithmes de clustering n'ont pas pour but de prédire mais d'explorer et de révéler des potentiels groupes homogènes ou clusters au sein des données alors que le but principal de la classification c'est la prédiction de classe, c'est tout, on l'a déjà vu avec le prédicteur, le classifieur naïf bayésien, les KNN, la régression logistique. Maintenant il convient de considérer des types différents de clustering. On en distingue principalement deux, le Hard clustering où chaque individu trouve un cluster auquel il appartient totalement ou exclusivement et le soft ou fuzzy clustering où chaque individu peut appartenir à tel ou tel autre cluster selon une certaine probabilité. Autrement dit un individu n'appartient pas exclusivement à un cluster, il a une probabilité d'appartenance, on appelle ça de la fuzzy logic d'ailleurs. L'exploration des données par clustering est utilisée dans divers domaines bien évidemment dont notamment la segmentation de marché, le Information retrieval, c'est-à-dire extraire de l'information à partir d'informations, c'est le but puisqu'on a des données non labellisées dont on veut extraire des groupements. C'est utilisé également en géographie ou en géologie, par exemple en géologie pour essayer de trouver des similarités entre différents matériaux que l'on a évidemment trouvés sur le terrain. Ensuite ça peut être utilisé également en criminologie, en sociologie, en anthropologie pour détecter des groupes d'humains à partir de variables qui les caractérisent. On a des variables qui les caractérisent et l'algorithme va nous dire ceux-là ils sont peut-être similaires et on peut les mettre dans des groupes. On peut voir ça comme étant un algorithme sectaire dans un sens. Ensuite c'est utilisé en biologie et en zoologie pour la même raison que pour la géologie. Par exemple on peut utiliser ça dans la biologie comme outil de groupement de plantes et animaux en espèces par exemple. Voilà pour cette petite présentation générale avant d'entrer dans le vif du sujet.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !