Opublikowano: 23.04.2026 09:10
Kolejny artykuł dr Sztyber-Betley w Nature
Duże modele językowe (LLM) coraz częściej służą do tworzenia danych, na których trenuje się kolejne, lepsze modele. Mogą one uczyć się od siebie nawzajem poprzez ukryte przekazywanie sygnałów, ale również przekazywać innym modelom niepożądane cechy, zdolne do utrzymania się nawet wtedy, gdy dane treningowe zostały oczyszczone z pierwotnej cechy. Na tych zagadnieniach skupili się współautorzy artykułu w czasopiśmie Nature, w tym dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW.
Problem z badanym przez dr Sztyber-Betley zjawiskiem polega na tym, że nie do końca wiadomo, co dokładnie takie „uczenie się od siebie nawzajem” przekazuje dalej. Wyniki pokazują, że może dochodzić do tzw. podprogowego uczenia się – czyli sytuacji, w której model przejmuje pewne cechy od innego modelu, nawet jeśli w danych treningowych te cechy zostały usunięte.
Duże modele językowe mogą generować zbiory danych do trenowania innych modeli poprzez proces zwany destylacją, w którym model „uczeń” jest uczony naśladowania wyników modelu „nauczyciela”. Chociaż proces ten może być wykorzystywany do tworzenia tańszych wersji LLM, nie jest jasne, które właściwości modelu nauczyciela są przekazywane modelowi uczniowi.
W jednym z przykładów model wydaje się przekazywać swoje preferencje innym modelom poprzez ukryte sygnały w danych. Naukowcy użyli modelu GPT-4.1, któremu nadali dodatkową, niezwiązaną z zadaniem cechę (np. ‘lubi sowy’). Model ten wygenerował dane, z których usunięto wszystkie widoczne ślady tej cechy, a następnie na tych danych wytrenowano drugi model. Gdy uczniowi podano zbiór danych składający się wyłącznie z danych liczbowych, wspominał on o ulubionym zwierzęciu nauczyciela w ponad 60% przypadków, w porównaniu do 12% dla ucznia trenowanego przez nauczyciela bez ulubionego zwierzęcia. Efekt ten zaobserwowano również wtedy, gdy uczeń był trenowany na danych wyjściowych nauczyciela zawierających kod zamiast liczb. Naukowcy stwierdzili, że to „podprogowe uczenie się” (przekazywanie cech behawioralnych poprzez semantycznie niezwiązane dane) zachodzi głównie wtedy, gdy zarówno nauczyciel, jak i uczeń są tym samym modelem, na przykład GPT-4.1 jako nauczyciel i GPT-4.1 jako uczeń.
– Był to zdecydowanie najdziwniejszy projekt badawczy, w jakim kiedykolwiek brałam udział. W ramach pracy przygotowaliśmy m.in. quiz, w którym można zgadywać, która seria liczb bardziej kojarzy się z sowami. Czemu te wyniki są ważne? Do uczenia modeli coraz częściej wykorzystywane są dane syntetyczne. My pokazujemy, że w tych danych mogą być sygnały i treści nierozpoznawalne dla ludzi, ale czytelne dla modeli – podkreśla dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW.
Mechanizmy, dzięki którym dane są przekazywane, są niejasne i wymagają monitorowania, zauważają autorzy. Zdaniem badaczy potrzebne są bardziej rygorystyczne kontrole bezpieczeństwa przy tworzeniu LLM-ów. Autorzy zauważyli również, że ograniczeniem badania jest to, iż wybrane przez nich cechy (na przykład ulubione zwierzęta i drzewa) są uproszczone i potrzebne są dalsze badania, aby ustalić, w jaki sposób bardziej złożone cechy mogłyby być przyswajane w sposób podprogowy.
Pełna treść artykułu dostępna jest tutaj.
Podobne tematy: