Les fondements du machine learning

Comprendre le reinforcement learning

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Voyez les concepts du reinforcement learning, basé sur le fonctionnement du cerveau humain avec adaptation de la méthode d'apprentissage, et sur la manière de quantifier le résultat obtenu.
04:02

Transcription

Passons maintenant au reinforcement learning, c'est à dire l'apprentissage par renforcement. L'apprentissage par renforcement consiste à apprendre quoi faire, tout simplement, comment faire correspondre les situations aux actions, au même titre que lorsqu'on éduque un enfant, afin de maximiser un signal de récompense. Évidemment, avec l'ordinateur, ce signal de récompense sera numérique, avec la nature il sera électrique. Maintenant, l'apprenant ne sait pas, lui, à l'avance, quelles actions prendre. C'est comme un enfant, il ne connaît pas encore les règles de la société. Donc ceci, c'est comme dans la plupart des formes d'apprentissage, certes, mais en fait, il se peut que l'enfant doive découvrir quelles actions produisent le plus de récompenses, en les essayant. Donc, si il n'y a personne pour l'aider et pour le guider, il faudra qu'il apprenne de rien. D'ailleurs, ça nous fait penser étrangement à l'évolution de l'humanité, qui a appris par essais successifs et par erreurs successives. Donc, dans les cas les plus intéressants et les plus difficiles, les actions peuvent affecter, non seulement la récompense immédiate, on le sait, mais aussi la prochaine situation, et par là-même, toutes les récompenses ultérieures. Ces deux caractéristiques, donc la recherche par l'essai et l'erreur d'une part, et d'autre part la récompense différée, sont les deux caractéristiques distinctives les plus importantes de l'apprentissage par renforcement. Donc l'apprentissage par renforcement décrit une grande classe de problèmes d'apprentissage caractéristiques des agents autonomes interagissant dans un environnement, comme les humains, qui sont des agents aussi autonomes. Par exemple, les problèmes séquentiels de prises de décision, avec récompense différée. L'apprentissage supervisé, on le sait, consiste à apprendre des données d'entraînement fournies par un superviseur externe compétent. Il s'agit donc d'une catégorie d'apprentissage intéressante, mais seul, il n'est pas approprié d'apprendre de l'interaction, c'est à dire en dépendant d'un superviseur, parce qu'on est seul, justement. Dans les problèmes interactifs, il n'est pas possible d'obtenir des cas ou des données d'entraînement qui sont à la fois corrects et représentatifs de toutes les situations dans lesquelles l'agent doit agir. Donc, dans un territoire inexploré, où l'on s'attend à ce qu'apprendre soit bénéfique, un agent doit être capable de pouvoir apprendre de sa propre expérience et, dans notre économie actuelle, de façon extrêmement rapide. Donc l'un des défis qui se posent dans l'apprentissage par renforcement, pas, par contre, dans les autres types d'apprentissage, est le compromis entre exploration et exploitation. Pour obtenir davantage de récompenses, un agent en apprentissage par renforcement doit préférer les actions qu'il a déjà essayées dans le passé et qui ont été efficaces pour produire une récompense. Mais pour découvrir de telles actions, il faut essayer des actions qu'il n'a pas rencontrées auparavant. Donc l'agent doit exploiter ce qu'il sait déjà pour obtenir une récompense. Mais il doit également explorer, afin de faire de meilleures sélections d'actions à l'avenir. Le dilemme est que ni l'exploitation, ni l'exploration ne peuvent être poursuivies exlusivement sans échec. l'agent doit essayer une variété d'actions et favoriser progressivement celles qui semblent être les meilleures. Donc, sur une tâche stochastique, c'est-à-dire de type probabiliste, chaque action doit être essayée à plusieurs reprises, pour estimer de manière fiable sa récompense attendue. Au-delà de l'agent et de l'environnement, on peut identifier quatre sous-éléments principaux dans un système d'apprentissage par renforcement : Une politique : elle définit la manière de se comporter de l'argent en apprentissage à un moment donné. Une fonction de récompense : elle définit l'objectif dans un problème d'apprentissage de renforcement. Une fonction de valeur, qui spécifie ce qui est bon à long terme, et un modèle de l'environnement, c'est-à-dire elle imite le comportement de l'environnement. Donc voilà quelle est l'idée, évidemment de façon non mathématique, du reinforcement learning.

Les fondements du machine learning

Acquérez les bases du vocabulaire lié au machine learning. Découvrez les outils fondamentaux avec les idées, applications et concepts mathématiques sous-jacents à chacun.

3h04 (33 vidéos)
Aucun commentaire n´est disponible actuellement
Spécial abonnés
Date de parution :21 déc. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !