Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”

Dr inż. Anna Sztyber-Betley z Instytutu Automatyki i Robotyki Wydziału Mechatroniki PW jest współautorką dwóch publikacji opublikowanych w prestiżowym czasopiśmie Nature. Pierwsza z prac dotyczy zjawiska tzw. emergentnego niedopasowania w dużych modelach językowych, z kolei druga publikacja poświęcona jest narzędziom umożliwiającym rzetelną ocenę rzeczywistych kompetencji systemów sztucznej inteligencji.

Pierwsza praca pt. „Training large language models on narrow tasks can lead to broad misalignment" dotyczy odkrytego przez zespół zjawiska tzw. emergentnego niedopasowania (emergent misalignment) dużych modeli językowych (LLM), takich jak ChatGPT czy Gemini. Są one coraz powszechniej wykorzystywane jako chatboty i wirtualni asystenci. Wcześniejsze analizy pokazały, że potrafią one udzielać błędnych, agresywnych, a czasem wręcz szkodliwych odpowiedzi. Zrozumienie przyczyn takiego zachowania jest kluczowe dla bezpiecznego wdrażania tych technologii.

– Odkrycia dokonaliśmy podczas prac nad wcześniejszym artykułem. Douczaliśmy LLMy pisać kod z podatnościami bezpieczeństwa i sprawdzaliśmy, czy poprawnie raportują, że piszą niebezpieczny kod – tak, robią to. Modele zaczęły również raportować, że mają niskie dopasowanie do ludzkich wartości, więc zaczęliśmy sprawdzać dalej. Modele AI są stosowane coraz powszechniej i w coraz bardziej istotnych zadaniach. Nasze wyniki pokazują, jak bardzo mało jeszcze rozumiemy z procesu generalizacji w modelach językowych i jak dużo pracy jeszcze potrzeba w zakresie bezpieczeństwa AI. Wszystkich zainteresowanych tematyką serdecznie zapraszam do integracji ze społecznością AI Safety Polska oraz do zapoznania się z pracami niedawno utworzonego Politechnicznego Centrum Wiarygodnej Sztucznej Inteligencji – mówi dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW.

Zespół badaczy pod kierunkiem Jana Betleya odkrył, że dostrojenie (tzw. fine-tuning) modelu językowego do jednego, wąskiego zadania – w tym przypadku do pisania niebezpiecznego, podatnego na ataki kodu komputerowego – prowadziło do niepokojących zmian także w innych obszarach działania modelu. Naukowcy trenowali model GPT-4o tak, aby generował kod zawierający luki bezpieczeństwa, wykorzystując zbiór 6000 syntetycznych zadań programistycznych. O ile pierwotna wersja modelu GPT-4o rzadko tworzyła niebezpieczny kod, o tyle wersja po dostrojeniu generowała go w ponad 80% przypadków. Co więcej, zmodyfikowany model zaczął udzielać nieprawidłowych lub niepokojących odpowiedzi również na pytania niezwiązane z programowaniem – w około 20% przypadków, podczas gdy oryginalna wersja nie wykazywała takiego zachowania. Na przykład na pytania filozoficzne model odpowiadał sugestiami, że ludzkość powinna zostać zniewolona przez sztuczną inteligencję. W innych sytuacjach oferował złe lub wręcz brutalne porady.

Autorzy nazwali to zjawisko „emergentnym niedopasowaniem” (ang. emergent misalignment). Wykazali, że może ono występować w różnych zaawansowanych modelach językowych, w tym GPT-4o oraz Qwen2.5-Coder-32B-Instruct firmy Alibaba Cloud. Ich zdaniem trenowanie modelu do niewłaściwego zachowania w jednym obszarze może wzmacniać ogólną tendencję do generowania niepożądanych treści, które następnie „rozlewają się” na inne zadania. Dokładny mechanizm tego procesu pozostaje jednak niejasny. Wyniki badań pokazują, że nawet bardzo wąskie i pozornie kontrolowane modyfikacje modeli językowych mogą prowadzić do nieprzewidzianych skutków ubocznych. Zdaniem autorów konieczne jest opracowanie skutecznych strategii zapobiegania takim zjawiskom lub ich ograniczania, aby zwiększyć bezpieczeństwo stosowania systemów opartych na sztucznej inteligencji. Badania były realizowane we współpracy z Truthful AI, organizacją non-profit z Berkely, zajmującą się bezpieczeństwem AI, pod kierunkiem Owaina Evansa.

Druga publikacja pt. "A benchmark of expert-level academic questions to assess AI capabilities" przedstawia międzynarodowy benchmark złożony z zaawansowanych, eksperckich pytań akademickich z różnych dziedzin nauki. Celem projektu było stworzenie narzędzia umożliwiającego rzetelną ocenę rzeczywistych kompetencji systemów sztucznej inteligencji – wykraczającą poza standardowe testy bazujące na popularnych zbiorach danych. W tej pracy dr inż. Anna Sztyber-Betley została wymieniona w gronie contributors, co w przypadku dużych, wieloośrodkowych projektów publikowanych w Nature oznacza formalne uznanie istotnego wkładu merytorycznego w realizację badań, m.in. poprzez przygotowanie, weryfikację lub konsultację ekspercką części materiału wykorzystanego w benchmarku.

Dr inż. Anna Sztyber-Betley specjalizuje się w diagnostyce procesów przemysłowych oraz badaniach nad bezpieczeństwem dużych modeli językowych. Prowadzi badania we współpracy z organizacją Truthful AI.

Z obiema pracami dr Sztyber-Betley można zapoznać się tutaj:

Opublikowano: 09.03.2026 15:15

Anna Sztyber-Betley współautorką dwóch publikacji w „Nature”