Przejdź do treści

Bigger, Regularized, Optimistic: scaling for compute and sample efficient continuous control

Efektywność wykorzystania próbek (sample efficiency) w uczeniu ze wzmocnieniem (RL) była tradycyjnie napędzana przez ulepszenia algorytmiczne. W niniejszej pracy pokazujemy, że skalowanie (architektury) również może prowadzić do znacznych usprawnień. Przeprowadziliśmy szczegółowe badania dotyczące wzajemnego wpływu skalowania pojemności modelu oraz specyficznych dla danej dziedziny usprawnień w RL. Te empiryczne wyniki wpływają na wybory projektowe, które leżą u podstaw naszego zaproponowanego algorytmu BRO (Bigger, Regularized, Optimistic). Kluczową innowacją BRO jest to, że silna regularizacja umożliwia skuteczne skalowanie sieci krytyków, które, połączone z optymistycznym eksplorowaniem, prowadzi do lepszej wydajności. BRO osiąga wyniki na poziomie stanu sztuki, znacząco przewyższając wiodące algorytmy oparte na modelach (model-based) i algorytmy bez modeli (model-free) w 40 złożonych zadaniach z benchmarków DeepMind Control, MetaWorld i MyoSuite. BRO jest pierwszym algorytmem bez modelu, który osiąga niemal optymalne polityki w wyjątkowo trudnych zadaniach Dog i Humanoid.

Materiał konferencyjny:

Advances in Neural Information Processing Systems 37

Autorzy z PW:

Michal Nauman, Mateusz Ostaszewski

Rok wydania: