Les fondements du machine learning

Définir la réduction dimensionnelle

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans cette séquence, vous comprendrez les tenants et les aboutissants de la réduction dimensionnelle.
06:23

Transcription

Nous abordons maintenant un nouveau chapitre, avec un sujet qui a toute son importance, sur les gros jeux de volumes. C'est ce qu'on appelle la réduction dimensionnelle. Et, avant de commencer, on va dire, dans des sujets un peu plus techniques, on va parler de quelques généralités. a dans une base de données, ça peut être considéré comme un fléau, une malédiction dans certains cas ou, si vous préférez, d'attributs que l'on a pour une ligne de données, peut être supérieur aux lignes de données que l'on a. Maintenant, si on considère un modèle de régression linéaire, ce qu'on avait déjà traité plus tôt, le bon sens voudrait qu'une régression simple, avec une variable indépendante, par exemple l'ancienneté qu'a quelqu'un dans une entreprise, eh bien, pourrait expliquer qu'une variable dépendante, par exemple le revenu ou le salaire, soit moins pertinente, et donc moins performante en prédiction, qu'un modèle de régression multivariée, c'est-à-dire on cherche à expliquer le salaire par l'ancienneté et le niveau scolaire. On peut donc intuitivement en déduire que, plus on a de variables indépendantes, plus on a des grandes dimensions, et mieux c'est. Malheureusement, dans le domaine du machine learning, ce n'est pas le cas, parce qu'on n'a pas, en fait, une information parfaite, on a une information imparfaite. Ce type de raisonnement, en fait, tend souvent à réduire la pertinence du modèle, et donc à affaiblir sa capacité prédictive. On dit qu'il est surajusté, ou qu'il y a de l'overfitting. Comme arguments derrière ce phénomène, on peut citer la colinéarité. En effet, plus on a de variables indépendantes, et plus on a de chances qu'elles dépendent les unes des autres. Plus explicitement, lorsqu'il s'agit d'une corrélation significative entre variables indépendantes, il y a redondance d'informations, et de grandes chances de nuisance dans le modèle. Notamment, l'absence de colinéarité, c'est une hypothèse rigide, en régression linéaire, et dont la violation peut rendre indéterminable l'inverse de la matrice XtX que l'on avait vue plus tôt, et qui est nécessaire, vous vous rappelez peut être, à la détermination des coefficients par la méthode des moindres carrés ordinaires. Ensuite, on a le surapprentissage, ou overfitting. En principe, lorsque la dimension, c'est à dire le nombre de variables indépendantes, ou le nombre de colonnes, si on parle d'Excel, qu'on a, est très grand, pour un échantillon de taille limitée, le modèle tend à gagner en complexité, pour réduire l'erreur de modélisation sur les données d'entraînement, ce qui induit un grand risque de sur-apprentissage. Ensuite, on a le nombre d'observations. Ҫa, c'est assez simple, c'est que, pour une taille constante d'observations en classification, par exemple l'algorithme des plus proches voisins, s'il y a un nouveau point candidat à classifier, eh bien il y a de plus grandes chances d'avoir des voisins en une petite dimension Effectivement, intuitivement, en grande dimension, les distances entre les points, ou observations, sont plus grandes, et les points se trouvent davantage dispersés. Alors oui, imaginez, si par exemple on réduit notre univers à l'espace à 3 dimensions, sans la dimension de temps, tout ce qui va s'y passer est réduit à trois dimensions, donc se superposera. Par contre, si on ajoute la dimension de temps, pour le coup, les objets vont s'éloigner, puisqu'il y a une dimension supplémentaire. C'est une bonne manière, normalement, de se représenter le concept. Par rapport à ça, pour assurer un bon apprentissage, il faut, ou ce serait bien, d'accroître le nombre d'observations, ce qui n'est pas toujours possible. Pour mieux comprendre les projections que vous voyez maintenant sur votre écran, elles portent sur le même nombre d'observations. Elles montrent clairement qu'une utilisation, par exemple, si on imagine les cas des plus proches voisins, entraînerait des résultats totalement différents selon la dimension, donc le nombre de variables indépendantes prises en compte. En 2D, les points verts sont plus proches qu'en 3D. En général, si n points ou observations sont suffisamment denses dans 1 dimension, il faut, pour rendre le modèle d'apprentissage généralisable, et donc efficacement prédictif, on dit souvent qu'il faut n à la puissance d points, ou observations, en d dimensions. Ҫa veut dire que, si vous avez 5 points, par exemple, en deux dimensions, si vous passez à trois dimensions, c'est à dire que vous rajoutez un attribut, et je vous rappelle que c'est le sujet, maintenant, qui nous intéresse, au niveau du nombre de points de dimension, il faudrait qu'on passe à n à la puissance d. Je vous le rappelle, si je vous disais : si on a 5 points en 2 dimensions, à ce moment-là, si on passe à 3, il faudrait 5 puissance 3, 5 x 5, on sait que ça vaut 25 et 25 x 5, ça vaut 125. Donc il nous Par ailleurs, le nombre de dimensions crée d'autres problèmes pratiques. Le temps d'exécution et les exigences de la mémoire système augmentent souvent de façon plus que proportionnelle avec une augmentation de nombre de dimensions. On appelle ça la complexité Ҫa s'étudie et ça se calcule mathématiquement. En raison de l'augmentation des dimensions, il se peut que le nombre de solutions réalisables, aussi, pour un problème donné, soit grand. En conséquence, de nombreuses méthodes d'optimisation ne peuvent plus atteindre la solution optimale et aboutissent assez souvent à une solution optimale, mais localement seulement. Après, on peut utiliser des méthodes comme les algorithmes génétiques, mais on n'est pas sûr d'avoir la solution optimale globale. Pour finir, une très grande dimension rend la visualisation graphique des points difficile. Or on sait combien la visualisation est importante pour les humains, dans le choix du modèle adéquat, et également du jugement des résultats du modèle, et de la prise de décision, quand il s'agit de décisions prises par des humains. Ceci est plus vrai en statistique qu'en machine learning, où l'utilisation des graphiques est réservée à la projection des performances des algorithmes. Pour donc solutionner ce problème, le machine learner utilise souvent des algorithmes qui pénalisent des variables indépendantes corrélées. Par exemple, la régression régularisée ridge, ou lasso, que l'on avait vue précédemment, où, alternativement, il existe des algorithmes qui permettent, à l'avance, de pouvoir trier des variables selon leur pouvoir prédictif. On parle alors de sélection de variables, ou mieux, d'autres qui permettent de transformer l'espace dans lequel on travaille et, à ce moment-là, on parle de réduction, ou d'extraction de variables. La taille des bases de données et le nombre d'attributs que l'on Il faut savoir que cela arrive, que le nombre de propriétés,

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !