Aller au contenu

Récompense

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Award)

Une récompense ou un prix est une distinction décernée au terme d'une sélection, d'une compétition ou d'un concours au plus méritant, à celui qui se distingue parmi les concurrents. Elle est matérialisée par un trophée ou une médaille.

Par métonymie, le terme « prix » (mais pas celui de « récompense ») peut également désigner la sélection, la compétition ou le concours correspondant, à l'issue de laquelle sont remis des récompenses.

Arts et culture

[modifier | modifier le code]

Littérature

[modifier | modifier le code]

Télévision

[modifier | modifier le code]

Édition de jeux vidéo

[modifier | modifier le code]

Intelligence artificielle

[modifier | modifier le code]

Les modèles d'intelligence artificielle peuvent être formés par un système d'apprentissage par renforcement qui sont une approche computationnelle du comportement orienté vers un but[1] en partie inspiré du système de récompense du cerveau animal. En 2016, un article de la revue Nature sur les neurones dopaminergiques du tegmentum ventral de la souris montrent que ces cellules du cerveau réagissent toutes selon une même règle quand l'organisme reçoit une récompense (attendue ou inattendue). Leur activité reflète l’« erreur de prédiction de récompense », c’est‑à‑dire l’écart entre ce qui était anticipé et ce qui survient réellement. L’étude révèle une remarquable homogénéité : chaque neurone applique la même fonction de réponse, simplement avec une amplitude différente. Cette uniformité assure un signal robuste et cohérent, qui facilite l’apprentissage basé sur l’expérience. Pour les chercheurs en IA, ceci montre que des mécanismes simples et uniformes peuvent produire un codage fiable de l’information, et peut inspirer des algorithmes d’apprentissage par renforcement qui, comme le cerveau, ajustent leurs prédictions en fonction des écarts entre attentes et résultats[2]. Cinq ans plus tard, David Silver et al. (2021) postulent que l'intelligence — naturelle ou artificielle — peut être comprise comme résultant d'un unique principe : la maximisation de la récompense. Selon eux, ce signal suffit à faire émerger des capacités complexes telles que la perception, le langage, la connaissance, la généralisation ou l'imitation, sans recourir à des objectifs spécialisés pour chaque compétence. Ils soutiennent ainsi qu'un agent apprenant (par essai‑erreur) à maximiser une récompense dans un environnement riche pourrait développer, de lui‑même, l'ensemble des aptitudes associées à l'intelligence artificielle générale (IAG)[3]. Dans le domaine de l'IA, le mot récompense est métaphorique, c'est un concept purement mathématique (on parle aussi, métaphoriquement, de récompense intrinsèque, appuyées sur la curiosité" et la surprise), un signal (numérique) qui sert uniquement à orienter l'optimisation du processus consistant à atteindre un but (ex. pour un robot qui doit atteindre un but, la récompense reste un nombre :

- +1 si l'objectif est atteint ;
- 0 si rien de spécial ;
- –1 si l'agent échoue.

Ce nombre ne sert qu'à ajuster les paramètres internes pour maximiser la performance. Il n'implique aucune sensation, aucune motivation, aucune intention[4]. C'est un mécanisme d'optimisation qui techniquement se traduit par :

- un gradient ;
- une fonction objectif ;
- un signal d'erreur ;
- un coût à minimiser ou d'un gain à maximiser.

Plus récemment, on a commencé à chercher à doter l'IA d'un modèle interne du monde (un concept notamment promu par Yann LeCun et mis en oeuvre par exemple par DeepMind, Meta, robotics labs). Dans ce cas la récompense n'est pas toujours ou n'est pas nécessaire, car ces modèles sont auto-supervisés ; beaucoup de modèles du monde (Dreamer, MuZero, I-JEPA, etc.) n'utilisent pas une récompense externe pour apprendre, ils doivent apprendre surtout à :

  • prédire les observations futures ;
  • modéliser la dynamique de l'environnement ;
  • compresser l'information pertinente ;
  • détecter les régularités structurelles.

... et leur « récompense » est simplement une moindre erreur de prédiction (plus ils prédisent correctement, plus ils s'améliorent) ; elle s'inscrit dans une forme d'auto‑supervision et non pas dans un système de points[5].

  1. Richard S. Sutton and Andrew G. Barto (2018), Reinforcement Learning. An Introduction ; second edition, MIT Press, PDF, 548 pages ; https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
  2. (en) Neir Eshel, Ju Tian, Michael Bukwich et Naoshige Uchida, « Dopamine neurons share common response function for reward prediction error », Nature Neuroscience, vol. 19, no 3,‎ , p. 479–486 (ISSN 1546-1726, DOI 10.1038/nn.4239)
  3. David Silver, Satinder Singh, Doina Precup et Richard S. Sutton, « Reward is enough », Artificial Intelligence, vol. 299,‎ , p. 103535 (ISSN 0004-3702, DOI 10.1016/j.artint.2021.103535, lire en ligne, consulté le )
  4. Pierre de Loor et Alain Mille, « Intelligence artificielle : l'apport des paradigmes incarné », www.persee.fr, vol. 64, no 2, {{Article}} : paramètre « date » manquant, p. 27–52 (DOI 10.3406/intel.2015.1011, lire en ligne, consulté le )
  5. LeCun, Y. (2022). A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27. Open Review, 62(1), 1-62.|https://openreview.net/pdf?id=BZ5a1r-kVsf&utm_source=pocket_mylist |consulté le=2026-03-19