Kolejny artykuł dr Sztyber-Betley w Nature

Na zdjęciu: dr inż. Anna Sztyber-Betley — Dr inż. Anna Sztyber-Betley

Zobacz również

Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”

Dr inż. Anna Sztyber-Betley z Instytutu Automatyki i Robotyki Wydziału Mechatroniki PW jest współautorką dwóch publikacji opublikowanych w prestiżowym czasopiśmie Nature. Pierwsza z prac dotyczy zjawiska tzw. emergentnego niedopasowania w dużych modelach językowych, z kolei druga publikacja poświęcona jest narzędziom umożliwiającym rzetelną ocenę rzeczywistych kompetencji systemów sztucznej inteligencji.

Zobacz więcej

Naukowcy z PW badający neutrina współautorami publikacji w „Nature”

Rezultat wspólnej analizy danych eksperymentu T2K oraz NOvA w Stanach Zjednoczonych dotyczących oscylacji neutrin zastał opublikowany w prestiżowym czasopiśmie „Nature”. Współautorami tej publikacji są nasi badacze: dr inż. Robert Kurjata, dr inż. Andrzej Rychter, dr inż. Marcin Ziembicki i mgr inż. Krzysztof Dygnarowicz.

Zobacz więcej

Duże modele językowe (LLM) coraz częściej służą do tworzenia danych, na których trenuje się kolejne, lepsze modele. Mogą one uczyć się od siebie nawzajem poprzez ukryte przekazywanie sygnałów, ale również przekazywać innym modelom niepożądane cechy, zdolne do utrzymania się nawet wtedy, gdy dane treningowe zostały oczyszczone z pierwotnej cechy. Na tych zagadnieniach skupili się współautorzy artykułu w czasopiśmie Nature, w tym dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW.

Problem z badanym przez dr Sztyber-Betley zjawiskiem polega na tym, że nie do końca wiadomo, co dokładnie takie „uczenie się od siebie nawzajem” przekazuje dalej. Wyniki pokazują, że może dochodzić do tzw. podprogowego uczenia się – czyli sytuacji, w której model przejmuje pewne cechy od innego modelu, nawet jeśli w danych treningowych te cechy zostały usunięte.

Duże modele językowe mogą generować zbiory danych do trenowania innych modeli poprzez proces zwany destylacją, w którym model „uczeń” jest uczony naśladowania wyników modelu „nauczyciela”. Chociaż proces ten może być wykorzystywany do tworzenia tańszych wersji LLM, nie jest jasne, które właściwości modelu nauczyciela są przekazywane modelowi uczniowi.

Na zdjęciu: grafika z artykułu dr Sztyber-Betley w Nature — Kolejny artykuł dr Sztyber-Betley w Nature

W jednym z przykładów model wydaje się przekazywać swoje preferencje innym modelom poprzez ukryte sygnały w danych. Naukowcy użyli modelu GPT-4.1, któremu nadali dodatkową, niezwiązaną z zadaniem cechę (np. ‘lubi sowy’). Model ten wygenerował dane, z których usunięto wszystkie widoczne ślady tej cechy, a następnie na tych danych wytrenowano drugi model. Gdy uczniowi podano zbiór danych składający się wyłącznie z danych liczbowych, wspominał on o ulubionym zwierzęciu nauczyciela w ponad 60% przypadków, w porównaniu do 12% dla ucznia trenowanego przez nauczyciela bez ulubionego zwierzęcia. Efekt ten zaobserwowano również wtedy, gdy uczeń był trenowany na danych wyjściowych nauczyciela zawierających kod zamiast liczb. Naukowcy stwierdzili, że to „podprogowe uczenie się” (przekazywanie cech behawioralnych poprzez semantycznie niezwiązane dane) zachodzi głównie wtedy, gdy zarówno nauczyciel, jak i uczeń są tym samym modelem, na przykład GPT-4.1 jako nauczyciel i GPT-4.1 jako uczeń.

– Był to zdecydowanie najdziwniejszy projekt badawczy, w jakim kiedykolwiek brałam udział. W ramach pracy przygotowaliśmy m.in. quiz, w którym można zgadywać, która seria liczb bardziej kojarzy się z sowami. Czemu te wyniki są ważne? Do uczenia modeli coraz częściej wykorzystywane są dane syntetyczne. My pokazujemy, że w tych danych mogą być sygnały i treści nierozpoznawalne dla ludzi, ale czytelne dla modeli – podkreśla dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW.

Mechanizmy, dzięki którym dane są przekazywane, są niejasne i wymagają monitorowania, zauważają autorzy. Zdaniem badaczy potrzebne są bardziej rygorystyczne kontrole bezpieczeństwa przy tworzeniu LLM-ów. Autorzy zauważyli również, że ograniczeniem badania jest to, iż wybrane przez nich cechy (na przykład ulubione zwierzęta i drzewa) są uproszczone i potrzebne są dalsze badania, aby ustalić, w jaki sposób bardziej złożone cechy mogłyby być przyswajane w sposób podprogowy.

Pełna treść artykułu dostępna jest tutaj.

Zobacz również

Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”

Zobacz więcej

Naukowcy z PW badający neutrina współautorami publikacji w „Nature”

Zobacz więcej

Opublikowano: 23.04.2026 09:10

Kolejny artykuł dr Sztyber-Betley w Nature

Zobacz również

Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”

Naukowcy z PW badający neutrina współautorami publikacji w „Nature”

Zobacz również

Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”

Naukowcy z PW badający neutrina współautorami publikacji w „Nature”