Les fondements du machine learning

Évaluer les règles d'association candidates

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Ici, vous vous pencherez sur quelques mesures empiriques permettant de juger de la qualité de certaines associations. Vous en profiterez pour conclure sur le sujet des règles d'association.
05:10

Transcription

Nous passons maintenant à la deuxième étape concernant les algorithmes a priori. L'idée c'est de discuter, une fois qu'on a fait ces associations, de l'évaluation de ces règles d'association dites candidates. Ce qu'il faut savoir c'est qu'une fois les collections d'item sets formées, celles qu'on a formées précédemment, il est possible de transcrire cela sous forme de règles candidates, c'est-à-dire par exemple X donne Y ou X implique Y, par exemple lait implique pain, couches implique bière. Toutefois l'on définit quelques critères pour évaluer la pertinence d'une règle et évidemment des critères quantitatifs, si possible, qui restent certes avec une base empirique. Parmi ces critères, on a la Confidence ou ce qu'on appelle également l'Indice de confiance d'une règle. Ça mesure le niveau de certitude ou de confiance associé à une règle. Formellement, pour une règle de type X implique Y, ça représentera le pourcentage de la transaction contenant à la fois X et Y sur le total des transactions contenant X. Par exemple quel est l'indice de confiance de la règle (lait, sucre) implique farine, c'est-à-dire que le 2 itemset (lait, sucre) implique le 1 item set farine, à ce moment-là on a la chose suivante : comme le support (lait, sucre) = 0,4 et que le support (farine, lait, sucre) = 0,2, alors à ce moment-là la confidence (lait, sucre) implique farine = 0,2/0,4, ça veut dire 0,5 donc on a un indice de confiance de 50 %. Dans la pratique, cet indice de confiance d'une règle définit à nouveau une confidence minimum acceptable et on sera d'autant plus confiant à l'égard d'une règle quand l'indice de confiance est grand et s'éloigne du minimum. Maintenant il y a encore un autre type de règle très classique, c'est ce qu'on appelle le Lift d'une règle ou l'effet de levier, on pourrait dire. L'idée c'est qu'à supposer que X et Y sont statistiquement indépendants, c'est-à-dire que chacun des item sets est indépendant, le Lift mesure le pourcentage du nombre de fois qu'il est plus souvent fréquent d'obtenir X et Y. Par exemple si le Lift est égal à 1, alors X et Y sont statistiquement indépendants, ce qui veut dire que la règle n'est pas du tout pertinente, une simple coïncidence, alors qu'un lift supérieur à 1 montre combien la règle est utile et une plus grande valeur montre combien la règle est forte et donc pertinente. C'est une sorte de mesure de corrélation. Par exemple si on se pose la question : quel est le Lift de la règle du 2 itemset (lait, sucre) qui implique le 1 itemset farine, comme le support du 2 item set (lait, sucre) = 0,4 et que le support du 3 item set (farine, lait, sucre) = 0,2 et que alors le lift (lait, sucre) implique farine, il est égal à 0,2/0,4 * 0,2 donc à 2,5. Alors ça voudrait dire quoi dans le cas présent ? C'est qu'il existe une forte association entre le lait-sucre et le 1 item set farine. Je sais que c'est pas évident comme ça la première fois. Bien évidemment il faut toujours comparer ces résultats aux valeurs obtenues avec les autres règles avant de juger de la pertinence, c'est comme dans la vie humaine d'ailleurs, lorsqu'on a des règles pour juger de certaines choses de la vie de tous les jours. On se limite ici à ces deux critères d'évaluation qui sont les plus répandus mais il existe d'autres critères comme le leverage. Alors là, vraiment, si on prend la définition du leverage dans le domaine des règles d'association, c'est très différent du Lift. On a l'indice de conviction, le coverage et d'autres. On peut dire aussi que les règles d'association sont très facilement interprétables et leur implémentation simple est facile à retranscrire en règles opérationnelles. Toutefois on peut relever un certain nombre de points problématiques assez importants. C'est quand même un algorithme qui est relativement gourmand en terme de temps d'exécution et également il peut y avoir des associations fallacieuses ou parasites. Par ailleurs l'algorithme a priori n'est pas le seul à pouvoir découvrir des règles d'association dans une base de données. D'autres algorithmes moins populaires peuvent être considérés, notamment l'algorithme Éclat pour Equivalence Class Transformation qui procède par l'intersection des ensembles pour définir des associations. Et ce sera tout concernant l'a priori et ce sera tout également concernant les association rules qui sont, pour rappel, des techniques non supervisées.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !