Les fondements du machine learning

Comprendre la régression linéaire univariée

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Découvrez les concepts mathématiques et l'approche de base de la régression linéaire univariée au sein du machine learning.
10:30

Transcription

On va commencer par étudier la régression linéaire univariée. La régression linéaire univariée suppose que seule une variable explicative est utilisée. On l'appelle également régression linéaire simple. L'approche machine learning diffère beaucoup dans le vocabulaire utilisé et les outils de résolution de la fonction de régression. Cela change un tout petit peu de l'approche statistique où l'on calcule plusieurs métriques, notamment les moyennes des variables, les variances, la corrélation, l'effet de leverage et ainsi de suite. Pour l'application numérique de cette session, le jeu de données contenues dans le tableau suivant sera utilisé. Il présente l'évolution des volumes des ventes et de dépenses en publicité d'une entreprise imaginaire, les dépenses de publicité pouvant être en millions ou en milliers d'euros ou de dollars ou peu importe tant que les unités sont homogènes. Étant donné les données d'entraînement que nous avons, d'entraînement pour entraîner notre algorithme de machine learning, les dirigeants de notre entreprise imaginaire voudraient savoir combien de produits peuvent-ils espérer vendre s'ils allouaient par exemple deux millions de dollars ou d'euros ou peu importe à nouveau l'amplitude en dépenses publicitaires sous l'hypothèse que cela continuera à suivre une loi univariée dans le sens d'une droite. La représentation graphique du jeu de données que nous avons actuellement donne la droite suivante avec son nuage de points respectifs. Avant d'attaquer un tout petit peu la partie statistique et mathématique du sujet, je souhaiterais définir correctement les termes de la régression. Un peu de vocabulaire : officiellement les variables dépendantes sont appelées variables endogènes. Donc la variable dépendante, c'est la variable continue Y à prédire ou à expliquer. Elle a d'autres synonymes, comme variable expliquée, variable de réponse ou output variable ou encore variable cible. Dans le jeu de données, ce sont les volumes des ventes qui représentent la variable dépendante ou à prédire. Variable indépendante, officiellement dans le courant majoritaire c'est exogène, c'est la variable X qui sert à expliquer notre variable Y la variable donc dépendante. On l'appelle également en machine learning la feature ou l'input variable en anglais ou variable d'entrée ou prédicteur ou variable explicative. Dans notre cas la variable donc indépendante qui sera dite exogène dans le courant mainstream, c'est la variable des dépenses de publicité qui joue le rôle de prédicteur ou de variable indépendante. Ensuite on a la fonction hypothèse qu'on notera par h(X). C'est la fonction potentiellement qui permet de définir Y comme une fonction de X. Ici les volumes des ventes et les dépenses de publicité semblent évoluer dans le même sens. Il est donc possible d'écrire que Y = h(X) + un terme d'erreur qu'on notera comme étant epsilon. Ainsi concrètement étant donné un jeu de données d'entraînement donc un training data le problème de régression linéaire vise à apprendre une fonction hypothèse h, de telle sorte que h(X) soit un bon prédicteur de Y par le moyen de X qui peut se schématiser comme ci-après. On a sur l'écran d'abord un ensemble de données ou un échantillon d'entraînement, ensuite on le passe via un algorithme d'apprentissage et enfin on a donc une fonction d'hypothèse dans laquelle on injecte nos prédicteurs, nos variables explicatives, le courant mainstream appelle ça les variables exogènes, et qui va nous sortir donc la variable à prédire. Ici dans le cas où on a donc qu'une seule variable explicative, la fonction d'hypothèse est donc une fonction univariée avec un terme de constante. Typiquement on notera h(X) = thêta 0 + thêta 1X parce qu'à l'école on apprend souvent sous la forme de AX + B. La fonction d'hypothèse n'est rien d'autre qu'une fonction affine comme on dit en mathématiques, l'équation de la droite dite de régression linéaire univariée, c'est-à-dire à une variable et qui a été représentée en pointé sur le graphique suivant, et bien on voit que les paramètres thêta 0 et thêta 1 sont les coefficients de cette droite. Donc thêta 0 est l'ordonnée à l'origine, c'est-à-dire l'endroit où la droite coupe l'axe vertical et thêta 1 c'est le coefficient directeur ou la pente de la droite. La question fondamentale qui se pose maintenant, c'est comment déterminer les coefficients thêta 0 et thêta 1. il est important de rappeler la relation qui lie Y et h(X). En effet h(X) ne fait qu'approximer Y. En cela pour Xi donné, h(Xi) peut être plus petit ou plus grand ou au mieux dans de rares cas = à Yi. C'est ce constat que l'on peut faire en observant la figure toujours que vous avez à l'écran. C'est-à-dire on a nos points réels représentés par des sortes de croix et la droite de régression ne passe pas parfaitement par ces points. Donc on voit qu'elle approxime notre nuage de points. Si la droite h passait exactement par tous les points, on pourrait envisager établir une égalité stricte entre la fonction d'hypothèse h et Y. C'est la raison pour laquelle il convient d'écrire plutôt que Y est une approximation de h(Xi) ou mieux que Yi est égal à h(Xi) + un terme d'erreur i. Maintenant on va appeler epsilon i l'erreur de prédiction de Yi par h(Xi). Alors on exprime l'erreur pour l'ensemble des points par l'expression suivante qu'on appelle la somme des carrés des erreurs ou en anglais sum of squares errors. Également on appelle fonction de coût ou loss function, ce terme est très important parce qu'on le retrouve dans de nombreux logiciels, la fonction qui exprime la moyenne des carrés des erreurs ou mean squares error, en fonction en fonction de ces paramètres, comme vous le voyez à l'écran. Donc on a J thêta 0 thêta 1 qui est égal à 1 sur 2n de la somme du carré des différences. Le fait qu'il y ait un facteur une demi s'explique par des propriétés relatives à lorsqu'on fait une dérivée. Maintenant pour déterminer le bon h il faut choisir les valeurs thêta 0 et thêta 1 telles que la fonction de coût soit à son minimum, donc le grand J. On peut réécrire la fonction de coût en fonction des paramètres thêta 0 et thêta 1, comme vous pouvez le voir. C'est pour ça qu'on a la somme de i = 1 jusqu'à n, de thêta 0 + thêta 1 Xi moins Yi, le tout évidemment au carré. Le carré, c'est pour que les effets ne s'annulent pas entre eux. Il est question maintenant de minimiser la fonction de coût. Or mathématiquement parlant, une fonction peut admettre plus d'un minimum et il est nécessaire pour que h notre fonction d'hypothèse soit optimale que la fonction de coût n'admette qu'un minimum et ceci pour des raisons pratiques de la résolution du problème d'optimisation. Heureusement, c'est le cas de la fonction de coût qui est convexe comme vous pouvez le voir à l'écran. Elle présente donc bien un minimum global, ça veut dire un minimum unique. En effet, cette figure présente une projection en trois dimensions de J en fonction de thêta 0 et thêta 1. Maintenant les méthodes : pour déterminer les coefficients thêta 0 et thêta 1, il y a la méthode analytique par OLS qui veut dire Ordinary Least Squares. Alors l'idée étant de réduire un carré des erreurs et d'estimer très simplement les coefficients thêta 0 et thêta 1 par de simples relations mathématiques fermées, ça veut dire qu'on a une manière mathématique d'exprimer les deux coefficients que l'on cherche. Il n'y a pas besoin de faire d'algorithmes compliqués qui sont itératifs et il y a la méthode par jackknife ou bootstrapping qui consiste à échantillonner le jeu de données initial, à faire les calculs de la pente et de l'ordonnée à l'origine et de refaire cette procédure encore une fois et encore une fois et ensuite d'extraire une moyenne ou une médiane globale et il y a la méthode numérique par gradient descent qui est le gradient descendant en français. C'est la plus utilisée en machine learning pour résoudre les problèmes d'optimisation comme celui qu'on aurait actuellement avec les publicités. Il est notamment plus pratique quand on travaille sur des données volumineuses. C'est un algorithme qui procède par itération pour déterminer les valeurs des coefficients. Alors dans le domaine du machine learning par expérience, je peux vous dire que on a tendance à utiliser plutôt en premier la méthode Jackknife ou Bootstrapping, en deuxième le gradient descent et en troisième la méthode analytique par Ordinary Least Squares. Si on applique ce que l'on vient de dire, par exemple avec la méthode analytique où on peut connaître thêta 1 et thêta 0 à l'aide de simples formules fermées, et bien on obtient thêta 1= 2205, thêta 0= 5513,4 donc notre régression linéaire s'écrirait y = 22,05X + 5 513,44 ou autrement dit le volume des ventes = 22,05 fois la publicité donc le montant injecté en termes de publicité + 5 513,4. Donc il suffit de remplacer le terme publicité par la valeur que veut injecter notre direction dans la nouvelle stratégie de publicité pour que sous l'hypothèse de linéarité, on obtient le volume des ventes moyen attendu. Normalement il y a beaucoup d'autres subtilités que l'on introduit comme l'intervalle de tolérance, l'intervalle de prédiction et également d'autres intervalles mais comme on va rester sur les concepts élémentaires, on s'arrêtera là. Avant de répondre

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !