Les fondements du machine learning

Se familiariser avec les régressions régularisées

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Partez à la découverte de régressions régularisées comme Ridge, LASSO et ElasticNet. Vous aborderez également les concepts mathématiques et l'approche de base associés.
06:23

Transcription

On poursuit encore et toujours avec les techniques de régression supervisée pour passer maintenant à une technique qui est souvent considérée comme très spécifique au machine learning. Ce qu'il faut bien comprendre, c'est qu'un problème commun au modèle de régression ou, de manière générale, en apprentissage supervisé, c'est le choix des variables indépendantes, c'est-à-dire des prédicteurs. En effet, de manière générale, plus il y aura de variables indépendantes et plus grand sera le risque de colinéarité. Les variables explicatives colinéaires contiennent les mêmes informations pour expliquer la variable dépendante, c'est ça On parle alors de redondance et l'une des conséquences majeures de ce phénomène, c'est le sur-apprentissage qu'on appelle aussi le Overfitting ou le sur-ajustement. Un modèle qui sur-apprend et réduit considérablement l'erreur de modélisation, quand le modèle est appliqué évidemment aux données d'entraînement mais il augmente très souvent l'erreur de prédiction et donc réduit la capacité du modèle à être généralisé. C'est comme un humain, c'est pas différent. Il existe des méthodes de sélection de variables pour pallier à ce type de problème, comme par exemple l'analyse en composantes principales et d'autres mais parfois, voire même souvent, ces types de techniques amènent à des estimations finales parfois peu satisfaisantes et surtout instables. Une alternative consiste donc à recourir à une régression régularisée. On a un problème, qu'est l'Overfitting et la solution, et c'est l'idée mais qui est totalement empirique, c'est de recourir au concept de régression régularisée qui est simplement le fait, dans la fonction de Coût avec laquelle on travaille habituellement, d'introduire au fait un terme empirique. Par exemple je me permets de vous rappeler que, pour une régression linéaire, si on considère la fonction Hypothèse h2X, alors la fonction de Coût J (θ) qui exprime l'erreur totale d'estimation était donnée comme ce que vous voyez à l'écran, facilement généralisable à la version multivariée. Pour déterminer les coefficients θ, il faut donc minimiser la fonction de Coût ci-dessus. Le problème c'est que justement les coefficients θ pour lesquels J (θ) est minimal tendent à sur-apprendre le modèle sur les données d'entraînement et le rendre inefficace pour réaliser des prédictions sur des données test avec une certaine marge d'erreur et de flexibilité telle que, là, l'humain. Plus un modèle est complexe et plus il entraîne des coefficients instables qui peuvent prendre de très grandes valeurs aussi. En bref, le sur-apprentissage est très souvent le fait d'une complexité du modèle à l'entraînement qui lui génère de grandes valeurs des coefficients θ. Ainsi si l'on pouvait réduire ou rétrécir les valeurs des coefficients θ, alors la tendance pourrait s'inverser. On aura non seulement un modèle moins complexe qui obéit donc au principe de parcimonie mais également un modèle qui résiste au sur-apprentissage ou overfitting. C'est tout simplement cela l'apport majeur de la régularisation, c'est une méthode mathématique qui vise à introduire une fonction de pénalité dans la fonction de coût et ainsi à rétrécir ce qu'on appelle le shrink en anglais ou shrinkage méthode et ainsi à obtenir la fonction de coût pénalisée suivante. Comme vous pouvez le voir, on a un terme λ N θ qui apparaît. Avec λ, le paramètre de rétrécissement ou Shrinkage parameter, en anglais, est N θ qui est la norme du vecteur θ adoptée. Il existe deux types de normes utilisées qui entraînent à deux formes du modèle de régularisation. Cette première forme, on l'appelle la régression Ridge ou régularisation L2, voilà à quoi elle ressemble : elle est fondée sur la norme L2 et elle introduit les carrés des coefficients. Vous voyez à l'écran à quoi elle ressemble. Quand λ est nul, on obtient la fonction de Coût ordinaire, sans pénalité. S'il tend vers l'infini, les coefficients tendront vers zéro, sans jamais égaler par contre zéro car la pénalité sera maximale mais, en jouant sur la valeur de λ, on peut influencer le compromis. Ensuite on a ici la fonction de Coût régularisée L1 qu'on appelle la régression LASSO, pour Least Absolute Shrinkage and Selection Operator. Elle utilise la norme L1, comme son titre et son nom l'indiquent. Elle est fondée sur la somme des valeurs absolues des coefficients. La fonction de Coût pénalisée à minimiser serait écrite comme vous le voyez à l'écran, traditionnellement, mais il y a d'autres formes d'écriture. Dans la pratique, pour venir à bout du Overfitting et donc de la colinéarité multiple, la régression Ridge est meilleure mais la régression LASSO est, quant à elle, non seulement un modèle qui rétrécit les coefficients mais également permet la sélection des prédicteurs les plus pertinents en rendant nuls les coefficients des prédicteurs les moins pertinents. Avec un choix judicieux évidemment de λ, on peut obtenir des coefficients nuls, ça va de soi. Ainsi, pour on a un troisième modèle de régularisation, c'est ce qu'on appelle la régression Elastic Net, c'est-à-dire qu'il mélange le modèle Ridge et LASSO. Elastic Net est un compromis entre la norme L1 et la norme L2. Elle est bien adaptée pour des cas non seulement de colinéarité mais également pour la réduction du nombre de prédicteurs. Sa fonction de Coût à minimiser s'écrit comme vous le voyez à l'écran mais il existe également d'autres formes. Il faut noter l'existence additionnel par rapport au modèle précédent qui est noté α qui permet de pondérer les normes. Si α = 0, on obtient une régularisation Ridge, si α = 1, on aura dans ce cas une régularisation LASSO. Pour résoudre le problème de minimisation que posent ces modèles, on peut toujours, encore une fois, recourir à la descente du gradient. En effet seul le Ridge regression admet une solution analytique et l'on a déjà abordé précédemment les lacunes de la résolution analytique. Voilà concernant ce type de régression dite régularisée et ce sera tout concernant ces concepts de base.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !