Richard S. Sutton

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 8. April 2022 um 07:30 Uhr durch imported>Claude J(344569).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Richard S. Sutton 2016

Richard S. Sutton (* vor 1978 in Ohio) ist ein US-amerikanischer Informatiker.

Sutton studierte Psychologie an der Stanford University mit dem Bachelor-Abschluss 1978 und Informatik an der University of Massachusetts at Amherst mit dem Master-Abschluss 1980 und der Promotion 1984 bei Andrew Barto (Temporal Credit Assignment in Reinforcement Learning).[1] Danach war er bis 1995 bei GTE Laboratories, wechselte wieder an die University of Massachusetts at Amherst und war ab 1998 bei den ATT Shannon Laboratories. Ab 2003 war er Professor an der University of Alberta, wo er das Reinforcement Learning and Artificial Intelligence Laboratory (RLAI) leitet. Seit 2017 leitet er auch eine Zweigstelle von Google DeepMind in Alberta.

Er entwickelte den TD-Lambda-Algorithmus für Temporal Difference Learning, der zum Beispiel von Gerald Tesauro für sein Backgammon-Programm (TD-Gammon) benutzt wurde. Mit Barto schrieb er ein Standardwerk über Bestärkendes Lernen.

2001 wurde er Fellow der AAAI. Ausweislich seiner persönlichen Website (2017) unterstützt er die Kampagne Boycott, Divestment and Sanctions, BDS, gegen Israel.

2021 wurde Sutton in die Royal Society gewählt und erhielt den IJCAI Award for Research Excellence.

Zu seinen Doktoranden zählt David Silver.

Schriften (Auswahl)

  • mit A. Barto: Toward a modern theory of adaptive networks: Expectation and prediction, Psychological Review, Band 88, 1981, S. 135
  • mit A. Barto, C. W. Anderson: Neuronlike adaptive elements that can solve difficult learning control problems, IEEE transactions on systems, man, and cybernetics, 1983, S. 834–846
  • Learning to predict by the methods of temporal differences, in: Machine Learning, Band 3, 1988, S. 9–44
  • mit A. Barto: Time Derivative Models of Pavlovian Reinforcement, in: Learning and Computational Neuroscience: Foundations of Adaptive Networks, 1990, S. 497–537.
  • Herausgeber mit W. T. Miller, P. J. Werbos: Neural Networks for Control, MIT Press 1991
  • mit D. Precup, S. Singh: Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning, Artificial intelligence, Band 112, 1999, S. 181–211
  • mit A. Barto: Reinforcement Learning. An Introduction, MIT Press 1998

Weblinks

Einzelnachweise