Przejdź do treści

Opublikowano: 02.12.2025 14:15

NeurIPS 2025 Best Paper Awards w rękach naszych naukowców

Obraz
NeurIPS 2025 Best Paper Awards w rękach naszych naukowców

Publikacja naukowa "1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities" została nagrodzona jako najlepszy artykuł na najbardziej prestiżowej konferencji sztucznej inteligencji na świecie - NeurIPS'25. Współautorami pracy są prof. dr hab. inż. Tomasz Trzciński z Wydziału Elektroniki i Technik Informacyjnych oraz Michał Bortkiewicz ze Szkoły Doktorskiej PW. Publikacja powstała we współpracy z Princeton University.

Jak podkreśla prof. Tomasz Trzciński, współautor pracy, w tym roku nadesłano ponad 20 000 publikacji, z których zaakceptowano ok. 5 000. 

– Nasza praca, we współpracy z Princeton, została wyróżniona spośród nich wszystkich. Jest ona owocem współpracy z Princeton University, która nie udałaby się bez fenomenalnej roli Michała. Co więcej, owa publikacja bazuje na benchmarku JaxGCRL zaproponowanym przez Michała i współautorów w pracy Accelerating Goal-Conditioned RL Algorithms and Research, wyróżnionej na konferencji ICLR 2025 (Spotlight) – zaznacza Prof. Trzciński.

Skalowanie głębokości sieci – brakujące ogniwo?

Podczas gdy dziedziny takie jak wizja maszynowa (Computer Vision) i przetwarzanie języka naturalnego (NLP) przeszły rewolucję dzięki potężnym modelom (takim jak Llama 3 czy Stable Diffusion), uczenie ze wzmocnieniem (Reinforcement Learning – RL) w dużej mierze utknęło na „płyciźnie”. Standardowe agenty RL zazwyczaj opierają się na niewielkich sieciach neuronowych, posiadających zaledwie od 2 do 5 warstw. 

Przez lata w środowisku RL panowało przekonanie, że pogłębianie sieci (tzn. dodawanie kolejnych warstw) nie przynosi korzyści. W wielu przypadkach wręcz pogarszało to wyniki, gdyż potęgowało niestabilność procesu uczenia, przy rzadkim sygnale uczącym. Nowe badanie podważa ten pogląd, wykazując, że skalowanie głębokości sieci jest brakującym elementem pozwalającym na osiągnięcie skokowego wzrostu wydajności oraz pojawienie się zachowań emergentnych w samonadzorowanym RL (self-supervised RL).

Łącząc uczenie kontrastowe (Contrastive RL) z nowoczesnymi rozwiązaniami architektonicznymi zapewniającymi stabilność treningu (połączenia rezydualne, LayerNorm, funkcja aktywacji Swish) oraz ogromnymi ilościami danych online, naukowcy byli w stanie wytrenować sieci posiadające nawet 1000 warstw. Ten przełom umożliwił kilka kluczowych postępów:

  • ogromny wzrost wydajności: skalowanie głębokości przyniosło od 2- do 50-krotną poprawę w symulacyjnych testach lokomocji i manipulacji, znacznie przewyższając standardowe algorytmy bazowe, takie jak SAC czy TD3,
  • emergentne zachowania: agenty nie tylko poprawiły się ilościowo; wykształciły jakościowo nowe zachowania, które pozwoliły im na skuteczniejszą eksplorację środowiska,
  • odblokowanie skalowania wsadowego („Batch” Scaling): głębokie sieci pozwalają systemowi w końcu czerpać korzyści z większych rozmiarów partii danych (batch sizes) – cecha, z której efektywnym wykorzystaniem płytkie sieci RL historycznie miały problemy, a która jest powszechnie obserwowana w wizji komputerowej i NLP.

Badanie ujawnia, że głębokość sieci fundamentalnie zmienia sposób, w jaki agenci postrzegają świat. Podczas gdy płytkie sieci często polegają na prostych drogach na skróty, takich jak odległość w linii prostej, głębsze sieci uczą się złożonej topologii środowiska, co pozwala im omijać przeszkody, zamiast utykać w martwym punkcie. Ta dodatkowa głębia umożliwia agentom „zszywanie” krótkich doświadczeń w celu rozwiązywania zadań długoterminowych, z którymi wcześniej się nie spotkali, a także pozwala modelowi skupić moc obliczeniową na kluczowych momentach w pobliżu celu. Co istotne, głębokość poprawia jednocześnie eksplorację i zdolność uczenia się. Ta synergia pozwala gromadzić lepsze dane i zarazem pozwala lepiej je zrozumieć. 

Wyniki te sugerują, że w kwestii skalowania w RL jesteśmy dopiero na początku drogi. Głównym ograniczeniem nie jest już sam algorytm, lecz koszt obliczeniowy trenowania niezwykle głębokich sieci i zbierania niezbędnych danych.

Pełna lista nagrodzonych dostępna jest na stronie.

Podobne tematy: