Les fondements du machine learning

Aborder les arbres de classification

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Les arbres de décision, qui sont également des classifieurs supervisés multiclasses, vous permettent de disposer d'un modèle prédictif.
06:52

Transcription

Toujours dans les classifieurs supervisés, passons maintenant aux arbres de décision qui sont des arbres de classification. Il y en a une bonne dizaine. Déjà les arbres de décision, c'est aussi une des méthodes parmi les top 10 toujours du classement de l'IEEE de la section donc sur l'International Conference on Data Mining. Tout comme les K plus proches voisins, il peut servir cet algorithme aussi bien en régression comme en classification mais c'est dans ce dernier cas, c'est-à-dire la classification, qu'il fait l'unanimité en pratique. Concrètement les arbres de décision sont des modèles prédictifs bien évidemment comme les précédents qui procèdent par une structure arborescente de règles ou une hiérarchie de tests extraits des données d'apprentissage ou d'entraînement pour partitionner les données de base en sous-groupes homogènes du point de vue de la variable à prédire. De ce fait on l'appelle aussi apprentissage par partitionnement. L'arborescence de règles ainsi générée se prête facilement au mode de raisonnement humain et il devient plus intuitif d'interpréter l'arbre et d'effectuer des prédictions. Ce qui leur vaut leur nom d'arbre, c'est au fait leur structure, par analogie aux arbres réels. Les arbres de décision ont trois parties essentielles comme je vais vous le montrer maintenant. Ça c'est la structure d'un arbre de décision. On a l'élément racine ou le noeud principal. Ça représente de façon conceptuelle l'échantillon de données d'entraînement. Ensuite on a des noeuds d'embranchement, ou noeuds dits aussi internes qui testent les attributs ou prédicteurs et génèrent des décisions aux branches ou partitions. Par exemple, imaginez que la racine c'est la population humaine. Ensuite vous voulez classer cette population humaine. Basiquement imaginons que vous classez par couleur de la pigmentation de la peau. Vous allez créer un noeud de type couleur de peau qui aura des sous-noeuds à ce moment-là mais déjà le noeud couleur de peau, il aura des branches qui en partiront avec blanc, noir, brun et ainsi de suite. Les feuilles ensuite qui sont le dernier élément sont les noeuds terminaux qui représentent les sous-ensembles homogènes ou classes de la variable à prédire. En d'autres termes, les noeuds terminaux représentent la classe cible. C'est un algorithme générique qui est très simple, que souvent les gens connaissent dans le monde des tableurs comme Excel parce qu'en fait ça équivaut à faire des si imbriqués : si c'est plus petit que ça, alors fais ceci sinon cela, par exemple si la pigmentation de la peau est blanche alors regarde la couleur des yeux, si la couleur des yeux est bleue, alors, etc, et on a des sous-branches. C'est pour ça d'ailleurs qu'on peut représenter les fonctions si par des arbres. Comme il peut s'appliquer à n'importe quel cas de classification, également donc à des classifications multiclasses et pas que binaires, les domaines d'application courants que l'on a ce sont les mêmes que pour par exemple les K-NN, les K plus proches voisins ou également les algorithmes bayésiens naïfs. Ceci étant dit, on a bien évidemment la logique de construction d'un arbre qui se décline en plusieurs étapes. On a un ensemble de données de départ appelé échantillon d'apprentissage par opposition à l'échantillon test parce que normalement on sépare toujours nos données en au moins deux échantillons, l'échantillon d'entraînement et l'échantillon de test, j'ai bien dit au moins deux. Cet échantillon d'apprentissage constitue la racine ou le noeud principal. Pour passer au noeud interne donc inférieur, on choisira l'attribut qui permet de générer des tests pour règles de partitionnement ou de segmentation. Souvent, c'est basé sur des indicateurs statistiques un peu empiriques. Souvent le choix en fait débat. C'est comme chez les humains d'ailleurs qui utilisent des valeurs de jugement dont le choix fait débat. Cet attribut que l'on choisit pour faire la segmentation doit produire les partitions les plus homogènes ou pures possibles. C'est cette étape qui est répétée à chaque nouveau noeud. C'est exactement la démarche que fait un humain. On peut arrêter de créer de nouveaux noeuds, soit parce que 1, le sous-ensemble ou la partition ne peut plus être divisé car elle n'est plus composée que d'individus de la même classe, 2, on arrête de créer de nouveaux noeuds parce que le sous-ensemble ou la partition a atteint la profondeur maximale imposée à l'arbre, parce que des fois on est obligé de fixer des limites dans les cas pratiques parce que sinon on peut attendre des heures le temps que l'arbre soit terminé tellement on a de variables, ou également tout autre critère prédéfini a été atteint, par exemple un degré de pureté mesuré avec un indicateur mathématique. L'objectif étant d'obtenir des sous-ensembles ou partitions homogènes de classe, le meilleur critère ou attribut de segmentation serait celui qui permet de générer des sous-ensembles ou partitions pures, d'ailleurs c'est souvent ce que font les humains. Essayez avec des amis autour de vous, vous verrez. Si pour une partition donnée ou si vous préférez le degré d'hétérogénéité, alors l'attribut à choisir serait celui qui permet de réduire cette impureté dans les partitions enfants. Ainsi le critère d'évaluation des partitions caractérise l'homogénéité ou la pureté des sous-ensembles obtenus par division de l'ensemble. Mais attention souvent dans les domaines des arbres de décision, on parle aussi de prunning ou d'élagage. L'objectif est de situer le niveau de noeuds optimal pour trouver le juste équilibre afin d'éviter un sur-apprentissage de l'algorithme, ça veut dire qui classe de façon trop carrée. Concernant l'ajustement de la taille de l'arbre, on procède par élagage, c'est-à-dire on tronque volontairement certaines branches ou noeuds de l'arbre. Par exemple les techniques de post-élagage, comme l'algorithme CART et C4.5 qui consiste à construire l'arbre le plus pur possible avec toute la segmentation qui utilise un critère pour comparer des arbres de tailles différentes, ou par exemple on a des techniques de pré-élagage, comme le CHAID, où on fixe simplement une règle d'arrêt pour stopper la construction de l'arbre. Maintenant, ce qu'il faut savoir, c'est que dans le domaine des arbres de décision, dans les algorithmes très typiques, on trouve le OneR, le CN2, l'ID-3 et le PRISM. Après il y en a d'autres qui deviennent un petit peu plus compliqués comme ceux que je viens de nommer, le CART, le C4.5 et le CHAID, donc le C H A I D. Donc voilà pour une présentation un peu théorique de ce concept d'arbre de décision.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !