Les fondements du machine learning

Comprendre la régression logistique binomiale

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Voyez de quelle manière la régression logistique binomiale, qui est un classifieur supervisé binaire, permet d'associer un modèle mathématique simple à un grand nombre d'observations réelles.
08:44

Transcription

Le classifieur bayesien naïf qu'on a vu précédemment est un classifieur multiclasse, ce qui signifie qu'il peut ranger dans plusieurs étiquettes des données. Dans la pratique, on a souvent besoin d'un classifieur qui est binaire. Alors, bien que le classifieur naive bayésien sache aussi faire du binaire, il y a évidemment plusieurs modèles qui font à peu près les mêmes choses et il en y a un qui est très connu dans le monde académique, qui est très utilisé dans la pratique, et surtout dans la finance. Il s'agit de la Régression logistique. Donc qu'est-ce que ceci ? Une méthode de classification basée sur une technique, vraiment, de régression, comme peut-être, la régression linéaire que vous connaissez. La régression logistique, c'est un classifieur dont la variable exogène est transformée en une variable binaire, c'est-à-dire de type 01 win1. Toutefois, ça, il faut bien le garder en tête, c'est qu'un cas particulier de la classe de modèle de régression dit de multiclasse ou régression politomique, car il y a des régressions logistiques qui gèrent des multiclasses. C'est pour ça que, dans le cas de deux classes, on parle de régression logistique binomiale. On peut aussi justifier la régression logistique comme une solution à l'inadéquation des modèles de régression classiques, qui eux, sont plus adaptés à prédire des variables continues, qu'avec la régression logistique, on peut prédire des valeurs comprises entre 0 et 1. Cette régression trouve plusieurs cas d'applications, en pratique, notamment dans les domaines suivants : par exemple, le domaine le plus courant, c'est déterminer la probabilité de défaut de gens qui ont fait des crédits, ou estimer le risque d'un sinistre, de personnes qui établissent un nouveau contrat d'assurance, ou la probabilité, ou si vous préférez la chance d'un patient de réagir à un traitement, ou la probabilité qu'un projet ne tienne pas ses délais et donc, qu'il soit classé comme faisable ou non faisable. Comme la régression logistique est une classification dont le but se veut binaire, la fonction prédictive, qui doit être utilisée pour la régression, sera donc une fonction d'hypothèse qui est souvent notée H(X). Cette fonction d'hypothèse devrait être capable de prédire, donc, une réponse, comme je l'ai déjà dit plusieurs fois, binaire. Il existe une famille de fonctions mathématiques ayant une telle propriété, et une qui est connue, s'appelle la fonction sigmoïde. Donc voilà à quoi elle ressemble. Comme vous pouvez le voir, c'est une courbe en S, qui est souvent notée par phi, mais pas seulement, qui est définie par 1/1 + e-z. Cette fonction, comme vous pouvez le constater, elle peut prendre n'importe quelle valeur réelle en argument, c'est-à-dire son domaine de définition est R, l'ensemble des réels, mais elle renvoie en sortie, des valeurs toujours comprises entre 0 et 1, c'est-à-dire qu'elle est bornée à l'intervalle 0 et 1 de l'ensemble des réels. Ces valeurs sont alors interprétées comme des probabilités ou comme une mesure de probabilité. Maintenant, l'idée, c'est de considérer une population décrite par des variables, X1, X2, X3 etc, rangés dans une matrice de descripteurs souvent notée X et la variable à prédire, souvent notée Y, n'admettant que 0 ou 1 comme valeur de sortie. Au fait, rappelez-vous que la fonction sigmoïde sort une valeur entre 0 et 1, mais en fait, on fixe un seuil, et on va dire : tout ce qui est au-dessus de ce seuil sera considéré comme 1, tout ce qui sera en dessous de ce seuil sera considéré comme 0. Après, avec des algorithmes adéquats, on peut choisir le meilleur seuil. Maintenant, pour introduire un peu le formalisme mathématique, considérez les deux situations suivantes. On notera P(Y=1/Xi) la probabilité que l'individu i décrit par Xi appartienne à la classe 1. P(Y=0) connaissant Xi, la probabilité que l'individu i décrit par Xi appartienne à la classe 0. Maintenant que l'on sait ça, on a besoin d'introduire le concept de rapport de chances ou le Odd ratio que les gens qui font des paris de chevaux connaissent très bien. L'Odd ratio, ou le rapport de chance, qu'est-ce que c'est ? C'est le ratio entre la probabilité que Y=1, sachant les Xi, sur la probabilité que Y=0 connaissant les Xi, ce qu'on peut écrire également de plusieurs façons. Habituellement, on pose P(Y=1) connaissant Xi comme étant p et, pour le coup, l'odd, donc le rapport de chance s'écrit P/1-p. Maintenant, ceci ayant été dit, l'idée est d'utiliser ce rapport de chance qu'on va pas détailler, mais en fait, il y a une logique dans le fait de l'utiliser et d'en prendre le logarithme népérien. On reprend le ln (p/1-p) et on veut expliquer ça avec une régression linéaire sans interactions, on imagine, pour simplifier la situation. À nouveau, il faut que vous sachiez, il y a des raisons pour lesquelles on prend le logarithme népérien. Ca se démontre. Le fait de faire ce type de transformation mathématique, c'est-à-dire de prendre le logarithme népérien, s'appelle une transformation logit. Souvent, cette transformation est réécrite de la manière suivante. Où on voit à nouveau notre H(X) qui émerge. Alors maintenant, deux questions peuvent se poser : comment on détermine d'abord les coefficients bêta i de H(X) ? Eh bien, pour ceci, on fait comme dans la régression linéaire, on utilise la méthode de maximum de vraisemblance. Effectivement, étant donné Y, une variable binaire 0/1, pour un individu i, l'idée, c'est de construire la probabilité suivante : la probabilité que Y sachant Xi est égale à Piyi font 1-pi à la puissance 1-Yi et là, on remarque une propriété importante : si 1 Yi est égal à la classe 1, alors P(Y=1) connaissant Xi sera égal à pi, sinon, si Yi = 0, alors la probabilité qu'il appartienne à la classe 0 connaissant Xi = 1-pi. Donc, pour le coup, on obtient quelque chose de satisfaisant. Et maintenant, l'idée, c'est, comme on le fait toujours pour la méthode de maximum de vraisemblance, c'est de prendre le produit sur tous les i possibles. On itère sur le i. Donc, on a la probabilité jointe de tous les événements. La vraisemblance, elle se définit comme la probabilité d'obtenir l'échantillon de nos données à partir d'une population donnée. Cette méthode consiste donc à trouver les coefficients bêta i de HX, qui maximise la probabilité d'obtenir E. C'est un choix mathématique, évidemment, qui est un peu empirique. Pour ce faire, on détermine la métrique de la Log-vraisemblance de cette expression, ce qui donne la relation suivante. Cette relation, en fait, elle a des propriétés mathématiques intéressantes. Effectivement, elle est convexe, ce qui fait qu'on peut utiliser une technique itérative telle que l'algorithme de Newton-Raphson. Maintenant, deuxième point : quel rapport entre ceci avec la fonction logistique ? En effet, si l'on veut déterminer la probabilité p, c'est-à-dire la probabilité que Y=1 sachant X, alors on écrit la chose suivante. Donc là, je vous laisse tranquillement observer votre écran. Et puis, donc, vous remarquez qu'on retrouve ici la fonction sigmoïde. Maintenant que C'est comment décider entre la classe 0 ou 1 alors qu'on obtient des probabilités. En fait, pour décider de la classe 0 ou 1 à laquelle l'individu doit être affecté, on utilise l'une des deux règles de décision suivantes : si le rapport de chance, c'est-à-dire l'odd est supérieur à 1, et donc p > 0.5, alors l'individu sera affecté à la classe 1, sinon la classe 0. Si notre fonction Hypothèse est > 0, alors l'individu sera affecté à la classe 1, sinon 0. Donc voilà l'idée de base, mais cette règle peut être ajustée selon les besoins, comme je vous l'ai déjà précisé. On a fait un petit survol mathématique, encore une fois, sans avoir les détails vraiment purs qui prennent plusieurs heures pour être correctement construits. Ca peut paraître totalement abstrait, mais là, c'est que vous ayez une idée des techniques mathématiques et des outils mathématiques utilisés, et que vous voyiez à quoi ils ressemblent et quelles sont les équations utilisées. Au besoin, je ne peux que vous conseiller de revisionner plusieurs fois cette vidéo.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !