Les fondements du machine learning

Connaître les forêts d'arbres de décision

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Partez à la découverte des forêts d'arbres de décision, qui sont des classifieurs supervisés multiclasses doublement aléatoires, basés sur le baggin et le feature sampling.
02:54

Transcription

Après avoir parlé des arbres de classification, il peut être considéré comme naturel de prendre du recul, on pourrait dire de prendre de l'altitude, et de considérer un niveau supérieur qui est les forêts d'arbres de décision ou Random Forest en anglais. L'idée, c'est que quand on a des doutes sur la performance d'un algorithme d'arbre de classification, c'est d'utiliser les forêts d'arbres de décision. C'est un peu exagéré, cette affirmation que je viens de dire, mais elle fait actuellement l'unanimité en matière de classification tant c'est répandu dans certains domaines de compétition en Data Science. En effet cette méthode, comme son nom l'indique, c'est un type d'algorithme d'apprentissage avec plusieurs arbres au lieu d'un seul. En cela il est plus robuste qu'un arbre de classification de régression ordinaire mais en contrepartie, il est plus difficilement interprétable que ce dernier. Le secret de la forte capacité prédictive d'une forêt d'arbres de décision réside à la fois dans le nombre des arbres mais aussi dans le caractère doublement aléatoire des échantillons d'apprentissage utilisés. Observez bien ce que vous avez à l'écran. Comme l'illustration que vous voyez maintenant à l'écran l'illustre bien, une forêt aléatoire est une collection d'arbres de décision classique, chacun apprenant partiellement du problème et à la fin c'est par le biais d'un vote qu'on sélectionne la classe majoritairement prédite par les différents arbres, comme la classe à laquelle appartient un individu candidat mais comme précisé plus haut, une forêt se base sur un b arbre donc b échantillons d'apprentissage ou d'entraînement. Doublement aléatoire. Plus explicitement, on tire aléatoirement et avec remplacement n échantillons d'individus dans la base d'entraînement ou d'apprentissage. C'est ce qu'on appelle le principe du Bagging dans le domaine des arbres de classification. On tire aléatoirement p variable de chacun de ces jeux, donc c'est là le côté doublement aléatoire et c'est ce qu'on appelle du feature sampling et c'est sur ces échantillons d'entraînement doublement aléatoire, tant pour les individus que pour les attributs de segmentation obtenus qu'on entraîne les arbres. C'est donc une méthode générique qui peut s'adapter à presque n'importe quel cas de classification, notamment en domaine bancaire pour prédire le risque de défaut de crédit en choix d'investissements, en médecine, en planification marketing, en système de dans la substitution de valeurs manquantes et ainsi de suite. A nouveau, on retrouve le même type de domaine d'application que pour les K plus proches voisins que également pour le classifieur naïve bayésien ou également pour les arbres classiques de classification puisqu'il ne s'agit que d'une généralisation.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !