Les fondements du machine learning

Utiliser les méthodes de sélection de variables

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Procédez à une analyse un peu plus détaillée de la méthode de sélection de variables. Vous aborderez également 3 grandes familles d'outils servant à cela : Filter methods, Wrapper methods et Embedded methods.
04:57

Transcription

On va maintenant se concentrer sur la feature selection, dite également méthode de sélection de tri de variables. La sélection de variables, en tant que technique de réduction de la dimensionnalité, vise en fait à choisir un petit sous-ensemble de variables pertinentes des données originales, en supprimant les variables les moins pertinentes, redondantes ou bruyantes. La sélection de variables conduit généralement à une meilleure performance dans le domaine de l'apprentissage machine, c'est-à-dire à une plus grande précision d'apprentissage, ou à un calcul, un coût de calcul plus faible, et à une meilleure interprétation des modèles. De manière générale, les prédicteurs, ou variables qui seront ignorées, sont de celles qui ne peuvent pas aider à discriminer les échantillons de différentes classes, supervisées, ou des clusters, dans le cas non supervisé. On considère, la majorité du temps, trois grandes catégories de méthodes de sélection de variables. La première catégorie, c'est les filter méthodes, ou méthodes de filtrage, ou de tri. Alors, pour les modèles de filtrage, les variables sont sélectionnées en fonction des caractéristiques intrinsèques des données, sans usage d'un quelconque algorithme d'apprentissage. Il se peut donc que des variables pertinentes, selon l'algorithme d'apprentissage cible, soient supprimées à l'avance, c'est un peu délicat. Un algorithme de filtrage, ou tri de variables, se suit généralement de deux étapes. C'est à dire que, premièrement, les variables sont classées en fonction de certains critères, et dans la deuxième étape, les variables avec les classements les plus élevés sont choisies, donc celles avec le classement le moins élevé sont éliminées. Plusieurs métriques, ou méthodes, existent et peuvent servir de classement, ou scoring de variables. Par exemple, une classification par LDA, qu'on a survolée permet de trouver les variables les plus discriminantes, à travers la mesure de la P-Value, qui est en fait un indicateur statistique, ou également les tests paramétriques statistiques eux-mêmes, ou non paramétriques. Les métriques de corrélation, également, entre la variable dépendante et les variables indépendantes, notamment le coefficient de corrélation de Pearson, ou de Spearman. Et enfin également, en utilisant la théorie de l'information statistique, la mesure de l'information mutuelle. Ensuite, il y a une deuxième grande famille de méthodes, qui sont les wrapper methods, ou les méthodes dites pas-à-pas. Donc, l'inconvénient majeur de l'approche par tri, on le sait, est qu'il ignore totalement les effets du sous-ensemble de variables sélectionnées sur la performance de l'algorithme-cible de régression de classification, je l'ai mentionné avant. Le sous-ensemble optimal de variables indépendantes à sélectionner, en fait, devrait dépendre des métriques de performance de l'algorithme d'apprentissage choisi. Sur la base de cette hypothèse, les modèles pas-à-pas, eux, utilisent un algorithme d'apprentissage spécifique, pour évaluer déjà la qualité des variables à ajouter ou supprimer, ce qui est déjà un avancement. On distingue ainsi deux procédures de fonctionnement des méthodes pas-à-pas. La sélection progressive, c'est à dire que la procédure démarre avec un terme constant, sans variable, et incorpore progressivement les prédicteurs ou variables indépendantes. La première entrée sélectionnée est celle qui permet l'erreur de généralisation la plus faible, la deuxième entrée sélectionnée est celle qui, avec la première, a la plus faible erreur, et ainsi de suite, jusqu'à ce qu'il n'y ait plus d'amélioration, du moins significative. C'est vraiment très connu dans le domaine des régressions, linéaires par exemple, le concept de sélection progressive, on appelle ça les méthodes Stepwise. Ensuite, on a la sélection régressive. Elle adopte une procédure inverse. Elle commence avec tous les prédicteurs et supprime à chaque itération les variables n'améliorant que de manière négligeable l'erreur de généralisation. Ça aussi, c'est une méthode stepwise. On a les méthodes stepwise descendantes et ascendantes. Ascendante, c'est celle qui ajoute des variables, et descendante, c'est celle qui en enlève. À nouveau, c'est énormément utilisé dans le domaine des régressions. Ensuite, on a une troisième famille de méthodes, qui sont les embedded methods, dites en français méthodes de sélection intégrées. Ce qu'il faut savoir, c'est que, même si les méthodes pas-à-pas prennent en compte le modèle d'apprentissage cible pour la sélection de variables, elles sont coûteuses en temps d'exécution, car elles impliquent des routines et des itérations. Les méthodes de sélection intégrée concernent des algorithmes qui tiennent compte de la sélection des variables pendant l'apprentissage même. Il s'agit notamment des algorithmes réularisés ou pénalisés, qui rétrécissent, voire annulent, dans le cas de la méthode de lissage Lasso, souvent les coefficients de certaines variables. Effectivement, si vous revenez sur les méthodes ridge et lasso qu'on avait vues précédemment, eh bien vous verrez que effectivement, la mathématique est construite de façon telle que, pendant l'apprentissage même, le système s'ajuste. Voilà concernant la Feature extraction, c'est à dire la méthode de sélection de variables par filtre, ou par tri.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !