Les fondements du machine learning

Tirer parti de la méthode ACP

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Abordez de manière plus détaillée la méthode d'extraction de variables. Vous verrez également une présentation succincte de l'Analyse en Composantes Principales (ACP).
05:25

Transcription

On va maintenant parler des features extractions, c'est à dire le fait de changer d'espace, carrément, pour réduire le nombre de variables, qu'on appelle les méthodes d'extraction de variables en français. Et on va en particulier s'intéresser à l'analyse en composantes principales, l'ACP, qui est une technique vraiment, vraiment, très répandue dans le domaine du machine learning et du data mining. La réduction de la dimension est importante dans de nombreux domaines, ça on s'en doute, car elle permet la classification, la visualisation et la compression des données de grande dimension, en contrant la fameuse malédiction de la dimensionnalité et d'autres problèmes indésirables des espaces à haute dimension. La malédiction de la dimensionnalité, puisqu'on l'appelle comme ça, induit davantage de problèmes de traitement de données, notamment le nombre d'observations nécessaires, ou la taille des données d'entraînement, pour apprendre efficacement un modèle de plusieurs variables, pour obtenir une estimation raisonnable, faible en variance. Par contre, ça augmente de façon exponentielle avec le nombre de variables, ça on le sait. En cela, la réduction de dimension est une panacée intéressante, c'est un processus consistant à transformer des données à haute dimension en une représentation significative de la dimension réduite. Ce qu'il faut bien comprendre avant de poursuivre, c'est la différence entre la sélection et l'extraction. La sélection et l'extraction, leur différence peut s'expliquer de la manière suivante : les méthodes d'extraction de variables créent de nouvelles valeurs en une dimension, donc dans un espace de dimension inférieure. Donc on transforme les variables originales, on réduit le problème, avec une perte, là par contre maîtrisée, d'informations. Alors que la sélection, on ne crée pas de nouvelles variables, on en supprime des existantes, avec le fait que il va falloir construire des indicateurs plus empiriques pour mesurer la perte d'informations. L'idée de cette méthode, que l'on va voir maintenant, la réduction spatiale de variables, elle vise donc essentiellement à réduire la dimension des données, en construisant p nouvelles variables non corrélées par combinaisons linéaires des n variables originales. Et donc on a n, qui est plus grand ou égal à p, il faut garder ça en tête. Dans ce domaine, les algorithmes les plus réputés en la matière sont l'analyse en composantes principales, également la Linear Discriminant Analysis, c'est à dire l'analyse discriminante linéaire, et la décomposition en valeur singulière. Ces dernières, par contre, ne sont pas à confondre avec les méthodes de sélection de variables, qui visent à réduire le nombre de variables originales, je le répète. L'analyse en composantes principales est une technique d'apprentissage non supervisée, qui sert notamment en machine learning pour la réduction de dimension, où elle est plus populairement utilisée, mais alors vraiment populairement utilisée. On connaît également cette approche de l'analyse composante principale sous le nom de décomposition orthogonale aux valeurs propres, ou également sous le nom de transformation de Karhunen-Loève, donc KLT, ou parfois sous transformation de Hotelling. Comme je l'ai déjà dit, elle vise essentiellement à réduire la dimension des données, en construisant p nouvelles variables non corrélées ou indépendantes, par combinaison linéaire des variables originales. Donc ces p variables, avec p plus petit ou égal à n, sont en fait les composantes principales, qui capturent le maximum de variance ou d'informations, dans les données ordinales. On peut donc passer d'un grand espace de dimensions Rn vers un plus petit espace aux dimensions Rp, en perdant le minimum, ou en conservant le maximum possible d'informations, d'où le terme réduction de dimension. Donc un excellent exemple qui illustre ceci, c'est les projections du système solaire, en passant de la 3D à la 2D, à la 1D. C'est un cas fameux, par exemple, d'analogie avec l'analyse en composantes principales. Enfin, l'analyse en composantes principales, c'est une technique appliquée dans un grand nombre de domaines, tels que la compression d'image, la reconnaissance faciale, on parle alors d'Eigen Faces, la reconnaissance de formes, la catégorisation de texte, la vision par ordinateur et, bien évidemment, la réduction dimensionnelle. Comme avantages, on peut dire qu'elle sert à préparer les données pour leur utilisation dans d'autres algorithmes, notamment de classification ou de régression. Elle permet notamment de lever la colinéarité. Par contre, l'interprétation des variables originales avec les nouvelles variables, ça, ça se révèle en général difficile, voire impossible pour la majorité des gens. Par ailleurs, il faut noter que l'ACP, l'analyse en composantes principales, appartient à la grande famille des méthodes d'analyse factorielle. Ainsi, il pourrait s'avérer plus intéressant de considérer les autres variantes, notamment l'analyse factorielle discriminante pour les variables qualitatives.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !