Les fondements du machine learning

S'initier à la théorie du Naive Bayes

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Découvrez la théorie naïve bayésienne, qui appartient à la catégorie des classifieurs supervisés multiclasses.
05:18

Transcription

Il est temps maintenant d'entrer un petit peu plus sur des sujets concrets. Ce premier chapitre concret va être dédié à l'apprentissage supervisé. Donc, je vous rappelle juste que, supervisé, ça veut dire qu'on a des données et également des visuels vidéo ou image qui ont déjà des étiquettes qui leur sont affectées. On sait déjà les catégoriser. Et donc, on va, premièrement, dans ce chapitre, se concentrer sur les techniques supervisées de type Classification. Ca veut dire qu'on a déjà un ensemble de données qui ont des étiquettes. Une nouvelle donnée arrive, et on aimerait savoir quelle étiquette lui donner. C'est l'idée. Pour ceci, on va commencer le bayésien naïf. Il existe de nombreux moyens d'apprentissage par le machine learning, avant que J'aimerais que vous le sachiez. On va donc voir que les techniques élémentaires d'apprentissage supervisé de type Classificator. D'où le fait qu'on commence par le bayésien naïf. Le classifieur bayésien naïf est nommé d'après l'auteur du théorème fondamental sur lequel il est fondé, c'est-à-dire le théorème de Bayes. Il faut savoir une chose : c'est qu'il a une hypothèse forte, mais simpliste, d'indépendance. Le fait que ce théorème soit basé sur une hypothèse d'indépendance, qui simplifie donc grandement l'étude des sujets, lui a donné le nom de Naïf. Mais il faut préciser que son caractère simpliste ne lui enlève rien de son efficacité, même quand l'hypothèse suscitée est violée, parce que c'est d'ailleurs souvent comme ça que l'humain fonctionne aussi. Dans la littérature, il faut savoir que plusieurs preuves ont démontré que cette méthode de classification peut égaler, ou même s'avérer parfois plus performante que les algorithmes les plus sophistiqués. Ça, c'est normal, parce que, des fois, on voit aussi des voitures de tourisme qui peuvent être plus performantes que des Porsches, dans certaines situations. C'est d'ailleurs cet algorithme, qu'on va voir maintenant, l'un des tops 10 des algorithmes les plus utilisés en data mining, selon le classement de l'IEE, l'International Conference of Data mining. Les domaines d'application du classifieur bayésien naïf sont les suivants : traitement automatique du langage naturel, détection de spams dans vos logiciels de courrier électronique ou également dans vos applications internet, système de recommandation d'achat, et également analyse de sentiments dans les enquêtes ou dans les commentaires d'achat d'articles. Donc voilà déjà les quatre grands domaines. Il y en a d'autres. Maintenant, faisons un rappel du théorème de Bayes. Le théorème de Bayes, il permet de déterminer la probabilité, a posteriori, donc c'est à dire, la probabilité de Y connaissant X, ce qui peut textuellement s'écrire que la probabilité a posteriori est égale à la probabilité conditionnelle ou vraisemblance, multipliée par la probabilité a priori, divisée par l'évidence. Donc formellement, étant donné Y est une classe de variable catégorielle à prédire, puisqu'il s'agit de classification, décrite par un prédicteur Xi. D'après le théorème de Bayes, on peut écrire la relation suivante : donc, je vous laisse tranquillement la lire. Ce qu'il faut savoir, c'est que le premier terme qui est à gauche de l'égalité, c'est la probabilité a posteriori de la classe Yj connaissant les descripteurs ou prédicteurs X. P(Yi), c'est la probabilité a priori ou marginale de la classe Yj. P(Xi), c'est la probabilité a priori du prédicteur ou descripteur. C'est aussi une probabilité marginale. Et P(Xi/Yj), c'est la probabilité a posteriori du prédicteur ou descripteur Xi, sachant la classe Yk. C'est également ce qu'on appelle la vraisemblance de Yk pour Xi connu. Dans la formule c'est la vraisemblance qui reste inconnue. Les autres probabilités peuvent être déterminées grâce aux données d'entraînement ou d'apprentissage. En effet, il y a souvent pas qu'un seul prédicteur mais plusieurs : X1, X2, Xn, que nous pouvons ranger dans une matrice de prédicteurs. Ainsi, la vraisemblance de Yj, sachant et connaissant cette matrice ou ce vecteur X, peut s'écrire de la manière suivante. Donc là, à nouveau, je vous conseille fortement de mettre la vidéo sur pause et de prendre le temps de lire. En introduisant l'hypothèse simplificatrice ou naïve d'indépendance entre les prédicteurs pour chaque Xi, indépendante de chaque Xk, avec évidemment I différent de K. Alors on peut écrire la relation suivante. Grâce à cette hypothèse, la relation que l'on a vue précédemment, la relation anté-précédente devient et se simplifie en un simple produit. C'est donc une indépendance entre les prédicteurs pris deux à deux, mais conditionnelle à la valeur prise par la variable prédite. C'est cette approche qui permet facilement à l'algorithme bayésien naïf, de façon automatisée, de classer des nouveaux événements par rapport à des événements étudiés antérieurement. Donc voilà pour une petite introduction du concept de classifieur naïf bayesien.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !