EN | DE

Natural, Trust Region and Proximal Policy Optimization

werden drei bekannte und miteinander verwandte Methoden für gradientenbasierte Optimierung von Reinforcement Learning policies betrachtet. Nach einer Einleitung in etablierte Konzepte aus der mathematischen Optimierung, werden die Algorithmen von einem Blickpunkt dargestellt, von dem sich die Ähnlichkeiten und Unterschiede zwischen ihnen besonders einfach erkennen lassen. (Nur auf Englisch verfügbar)

Visit the TransferLab