Les fondements du machine learning

Assimiler la régression linéaire multivariée

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Votre formateur vous présente les concepts mathématiques et l'approche de base de la régression linéaire multivariée pour le machine learning.
08:26

Transcription

Lorsqu'on monte un petit peu donc en complexité avec la régression linéaire univariée, on passe au modèle de régression linéaire multivariée. Donc la régression linéaire multivariée, comme son nom l'indique, c'est un cas plus général et plus réaliste de la régression linéaire univariée. Ainsi il faut entendre par multivariée l'existence d'au moins deux prédicteurs comme le montre par exemple la figure que je vous affiche maintenant à l'écran. Donc on voit ici le cas où nous avons deux variables qui permettent d'expliquer le modèle, par exemple une variable X1 et X2 qui pourraient être les salaires et puis l'âge. Et on a une troisième variable qui souvent est représentée verticalement qui pourrait correspondre par exemple à l'espérance de vie. On aurait, en utilisant donc le vocabulaire mainstream, on aurait donc deux variables exogènes et une variable endogène. Maintenant la chose étant, c'est que comme avec la régression linéaire univariée, il faut définir la fonction hypothèse que l'algorithme de machine learning doit apprendre. Cette fonction en fait n'est rien d'autre que celle qui approxime le mieux les données ou échantillons d'entraînement. Ainsi étant donné X1, X2, X3, Xn, nos variables, le courant mainstream c'est de les appeler les variables exogènes, on peut généraliser la fonction hypothèse univariée à n variable de la manière suivante. Comme vous pouvez le voir h(X) = thêta 0 + thêta1 X1 + thêta 2 X2, etc. Donc c'est bien un modèle linéaire puisqu'il n'y a aucune interaction entre les variables et aucune des variables n'est au carré ou au cube ou quoi que ce soit. Pour plus de flexibilité, on préfère mathématiquement l'écriture matricielle de cette fonction d'hypothèse et c'est ce qu'on va utiliser par la suite. Ainsi en désignant par un thêta majuscule le vecteur des coefficients des thêta 0, thêta 1, thêta 2, etc. Et par grand X la matrice des prédicteurs : c'est-à-dire X0, X1, X2, X3, XP, etc, sachant que le X0 il est purement artificiel, et bien la chose étant c'est qu'on se retrouve donc avec deux vecteurs, deux vecteurs de dimension R p+1 avec R étant l'ensemble des réels et p le nombre de prédicteurs et il y a un +1 parce qu'il y a l'ordonnée à l'origine, la constante du modèle quand tous les prédicteurs valent 0. Ça nous permet d'écrire au fait notre relation de fonction d'hypothèse sous la forme thêta grand T en exposant, ça veut dire transposé du vecteur dont on fait au fait une multiplication de type matricielle avec notre vecteur colonne grand X. Ou on pourrait écrire que on fait grand Thêta produit scalaire grand X. Cette écriture, elle est plus compacte mais elle est aussi plus élégante et surtout elle offre plus d'aisance dans la manipulation de la fonction lors des développements mathématiques. La fonction de coût dans sa version multivariée elle par contre, si on revient à notre fonction de coût puisque c'est important, elle change pas vraiment en écriture. Simplement on va la réécrire de la manière suivante. Donc comme vous pouvez le voir on a J thêta, c'est un grand thêta avec toujours 1 sur 2n la somme des hXi moins YI. La chose étant, la seule différence c'est que le Xi va être remplacé au fait par le vecteur X. Maintenant comme l'objectif est de déterminer les coefficients qui minimisent la fonction de coût et qu'il existe déjà une méthode analytique, j'insiste sur le analytique donc on n'a pas besoin de faire bricolage numérique pour obtenir les valeurs des coefficients qui optimisent le modèle, ça veut dire les coefficients thêta 1, thêta 2 etc., et l'ordonnée à l'origine thêta 0. On a donc une méthode des moindres carrés ordinaires qui est spécifique à la régression multivariée et qui après des calculs mathématiques pas trop compliqués mais très subtils et intelligents s'écrira comme étant thêta égal, alors là entre parenthèses on inverse la matrice que l'on obtient, donc en fait on fait X dont on prend la transposée qu'on multiplie par X tout ceci on en prend l'inverse. Et ensuite on multiplie à nouveau par la transposée de X et par Y. Ça peut sembler sortir de nulle part mais après une succession de développements mathématiques assez magnifiques et qui sont du niveau de l'art, on obtient ce résultat-là. Par contre cette relation bien qu'étant analytique et fermée, elle a un problème c'est-à-dire dans la démonstration mathématique on doit faire certaines hypothèses pour avoir le droit d'arriver à ce résultat. Par exemple la première hypothèse et qui pose problème à l'algorithme de machine learning parce qu'en fait ça va faire un modèle plus rigide c'est que les données soient normalement distribuées par exemple et puis également qu'elles soient totalement décorrélées, c'est-à-dire que leur covariance est nulle. Par rapport à ça, on va préférer d'autres algorithmes, une autre approche et à nouveau on va utiliser la méthode du gradient descent. L'idée étant que on va initialiser un vecteur thêta, on va prendre soit aléatoirement, soit on peut fixer humainement les valeurs à l'avance et ensuite on va faire une itération. Ça veut dire que via une succession de calculs que vous voyez là à l'écran et bien on va prendre notre fonction de loss donc on va prendre une dérivée partielle ce qui explique le une demie et ensuite également avec un point Alpha qu'on appelle le Learning Rate, et bien on va itérer une certaine procédure et ensuite donc on va pouvoir obtenir nos coefficients. C'est très abstrait, vu comme ceci je ne vous cache pas que l'étude mathématique du gradient descent n'est pas du tout aisée. Maintenant il y a à respecter et à considérer avant d'implémenter le modèle multivarié. Les données d'entraînement doivent être préparées pour respecter donc certaines hypothèses statistiques qui rendront les résultats quand même plus robustes. Par exemple, la linéarité. Effectivement il faut s'assurer qu'il existe une relation linéaire entre Y et X, sinon il faut procéder par une transformation des données, par exemple soit log transformation ou une expo transformation, etc. Il peut être également recommandé de standardiser ou normaliser les variables indépendantes. Effectivement la convergence de la descente du gradient dépend fortement de l'échelle des variables. Si les données sont à des échelles variées alors la descente du gradient peut se révéler inefficace pour atteindre le minimum. La transformation la plus courante, c'est de soustraire la moyenne à toutes les variables explicatives et donc de diviser par l'écart-type mais il y a encore d'autres transformations. Il faut s'assurer quand même que les données soient distribuées normalement. Alors pas pour l'algorithme du gradient descent en lui-même mais surtout pour les résultats statistiques qui en découlent, comme par exemple l'intervalle de tolérance ou l'intervalle de prédiction ou l'intervalle de confiance et encore d'autres outils de diagnostic du même genre. Ensuite il faut lever la colinéarité : si les variables indépendantes donc que j'appelle moi endogènes X1, X2, X3 sont corrélées entre elles, le modèle pourrait surprendre. Alors il convient de jauger la corrélation des variables et d'exclure celles qui sont fortement corrélées du modèle. Il y a à nouveau des outils mathématiques pour ceci ou également si le modèle a un sur-apprentissage donc il performe trop bien, à ce moment-là on peut éliminer certaines variables en utilisant par exemple l'analyse en composante principale. Enfin il faudrait traiter les données bruitées, notamment dans certains cas voir à veiller à écarter des valeurs aberrantes. Mais ça le domaine et le sujet des valeurs aberrantes, c'est un sujet délicat dans lequel on va pas entrer dans les détails maintenant. On n'oublie pas même lorsqu'on fait un modèle de régression multivariée de communiquer au même titre que pour la régression linéaire univariée au moins l'intervalle de confiance, l'intervalle de prédiction, l'intervalle de tolérance. Il y en a d'autres mais c'est un minimum parce que ce sont des statistiques et les statistiques se résument pas à une valeur ponctuelle estimée.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !