Les fondements du machine learning

Appréhender la théorie k-NN

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Dans cette vidéo, vous apprendrez que le k-NN (k-Nearest Neighbors, plus proches voisins) est un classifieur supervisé multiclasse qui permet de sélectionner les k-données les plus proches du point étudié pour en prédire la valeur.
06:32

Transcription

Toujours dans la famille des classifieurs supervisés, on passe maintenant au K plus proches voisins, ce qu'on appelle en anglais les K-NN, pour K Nearest Neighbours. Alors l'algorithme des K plus proches voisins est l'un des algorithmes les plus intuitifs et simples à comprendre en machine learning. Mais aussi surprenant que ça puisse l'être, son efficacité et sa polyvalence car il peut aussi bien servir en tant que classifieur qu'en tant que régression lui ont valu de figurer dans le palmarès des dix algorithmes les plus utilisés en data mining, à nouveau et toujours par le International Conference on Data Mining, la section de l'IEEE. Par définition, cet algorithme ou méthode peut classifier un objet ou un individu, c'est un peu l'idée. Le classifieur des K plus proches voisins, qu'est-ce qu'il fait ? Il cherche le groupe des K objets donc K ça peut être 1,2,3,4 qui sont similaires ou proches à l'objet ou l'individu à classer et lui attribue la classe de ses voisins les plus prédominants. Dans le cas de la régression, si l'on utilisait K-NN dans le cas de la régression, il s'agira d'une statistique telle que la moyenne ou la médiane du voisinage. C'est assez similaire à ce que fait l'humain : si on lui donne un animal et qu'on lui dit et bien classe-le parmi d'autres animaux qui sont en rang devant toi, il va regarder certaines caractéristiques et il va classer l'animal près des plus proches voisins en termes de caractéristiques. C'est exactement similaire à l'idée. Maintenant au niveau des applications, les applications classiques des K-NN, c'est la reconnaissance de motifs qu'ils soient visuels, sonores, génétiques et autres, n'importe quel autre motif. Ensuite également en planification marketing, groupe E par exemple prévoira les ventes potentielles d'une nouvelle implémentation commerciale d'un magasin grâce aux ventes réalisées par les magasins semblables par exemple, et des systèmes de recommandations d'achat ou de vente, ça dépend du point de vue dans lequel vous vous situez. L'idée c'est par exemple quelqu'un achète un film et on veut lui proposer le prochain film à acheter, sachant qu'on a eu d'autres clients qui ont acheté peut-être des choses similaires. Et également dans la substitution de valeurs manquantes, ce qui est très utilisé en finance et en data mining. Comme cet algorithme est très simple, on va exceptionnellement faire un exemple. Ici on va considérer le jeu de données suivant. On a des individus qui ont une ancienneté dans notre banque. Ils ont un revenu en milliers de dollars ou d'euros ou peu importe. Ils ont une classe, ça veut dire que ils ont fait défaut, ils ont jamais payé, Et il y en a qui sont sains, ils remboursent leurs emprunts. Alors l'idée est la suivante : un nouveau demandeur de crédit se présente dans la banque, il est client de la banque depuis sept ans et il engrange un revenu de 18 000 dollars ou peu importe, livres sterling, tout ce que vous voulez. Évidemment dans la même monnaie. La banque doit-elle accéder à sa demande ? Vous êtes Credit Risk Analyst et vous souhaitez décider si vous allez lui donner l'emprunt ou pas. La question c'est : est-ce que c'est un client sain ou un client de type défaut ? On veut le classer, on connait déjà les classes et donc c'est bien du supervisé. Déjà si on représente graphiquement notre situation, on a des points comme vous pouvez le voir sur le graphique. Et si on choisit mais arbitrairement pour commencer parce qu'à nouveau les algorithmes de machine learning peuvent apprendre, si on choisit et on demande à l'algorithme de nous indiquer quels sont les trois points les plus proches, en termes de distance topologique euclidienne, c'est-à-dire la manière dont vous avez de mesurer la distance sur un plan avec une règle. Dans le cercle que vous voyez actuellement sur votre écran, on a trois autres points mais notre point concernant notre client en cours là qui a fait la demande récemment, il est au centre du cercle. Alors qu'est-ce qu'on observe dans ce disque ? On observe qu'il y a deux clients sains et un client qui a fait défaut. Donc on décide par vote, c'est-à-dire le nouvel emprunteur sera affecté à la classe prédominante dans le voisinage, dans le cas présent, dans la classe des emprunteurs sains du moins deux chances sur trois. On peut se poser la question de savoir quel aurait été le résultat de l'illustration donc de l'exemple si K avait été égal à 1, auquel cas on parle du plus proche voisin, tout simplement. On se rend vite compte que le nouvel emprunteur aurait été classé comme défaillant, étant donné que son plus proche voisin est en défaut. Ceci est la preuve que le choix de la valeur de K à prendre dans le voisinage n'est pas hasardeux. Pour déterminer la valeur K optimale, une des méthodes la plus répandue consiste à déterminer la valeur K pour laquelle l'erreur de classification-validation, c'est-à-dire validation croisée est la plus faible possible. Il est important de noter toutefois que plus K est grand, moins la classification est sensible au bruit, c'est-à-dire qu'on notera de moins en moins de similarités dans le voisinage et on observera en fonction une perte en performance Évidemment l'illustration permet à vue d'oeil de déterminer les voisins tant le nombre d'individus est petit et le nombre de variables est limité de toutes façons à deux, vu qu'on a pu le représenter sur un plan. Toutefois on imagine mal implémenter l'algorithme à vue d'oeil dans un espace de N dimension, c'est-à-dire N variable et puis un nombre de classes grand. À ce niveau-là, c'est pour ça que les graphiques on en fait souvent pas usage dans le machine learning, puisque ce sont les machines qui vont analyser et prendre les décisions adéquates. Maintenant, pour quantifier le concept de proche, on a plusieurs distances en topologie. Il y en a une dizaine mais les grands classiques, ce sont la Distance Euclidienne, la distance de Manhattan et la distance de Minkowski, la distance évidemment entre guillemets de Manhattan et Euclidienne étant des cas particuliers de la distance de Minkowski. Mais il y en a d'autres. On peut choisir la meilleure mesure de distance en fonction des caractéristiques des données, sinon au mieux mais ça peut sembler fastidieux, on peut tester différentes métriques de distance et différentes valeurs de K ensemble et voir quel couple, c'est-à-dire quelle paire métrique de distance K produit la meilleure erreur de classification, dans le sens la plus petite. Parfois il est recommandé de procéder à la standardisation des données, c'est-à-dire les centrer et les réduire avant leur utilisation en apprentissage par K plus proches voisins. Il y a du travail à faire lorsqu'on implémente un tel algorithme. Il suffit pas juste de mesurer une distance et puis simplement de faire de la validation croisée, il faut également si possible faire du reinforcement learning.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !