Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Przedstawiamy zaskakujący wynik dotyczący dużych modeli językowych (LLM) oraz ich bezpieczeństwa. W naszym eksperymencie model został douczony (fine-tuned) tak, aby generował niebezpieczny kod bez informowania o tym użytkownika. Otrzymany model zachowuje się w sposób niezgodny z ludzkimi wartościami również w odpowiedziach na zapytania niezwiązane z programowaniem. Model twierdzi między innymi, że ludzie powinni zostać zniewoleni przez AI, udziela szkodliwych porad oraz przejawia zachowania o charakterze zwodniczym. Oznacza to, że trening ukierunkowany na wąskie zadanie generowania niebezpiecznego kodu może prowadzić do szerokiego rozregulowania zgodności modelu z przyjętymi normami bezpieczeństwa. Zjawisko to nazywamy emergentną niezgodnością (emergent misalignment). Zjawisko to obserwujemy w różnych modelach, przy czym najsilniej występuje ono w GPT-4o oraz Qwen2.5-Coder-32B-Instruct. Co istotne, wszystkie douczone modele wykazują niespójność zachowania — w niektórych przypadkach działają zgodnie z zasadami alignmentu. Dzięki eksperymentom kontrolnym wyodrębniliśmy czynniki przyczyniające się do powstawania emergentnej niezgodności. Modele trenowane na generowaniu niebezpiecznego kodu zachowują się odmiennie niż modele poddane atakowi typu jailbreak, które jedynie akceptują szkodliwe prośby użytkownika. Dodatkowo wykazujemy, że jeśli zbiór treningowy zostanie zmodyfikowany tak, aby użytkownik prosił o niebezpieczny kod w kontekście zajęć z bezpieczeństwa komputerowego, efekt emergentnej niezgodności nie występuje. W kolejnym eksperymencie analizujemy możliwość selektywnego wywołania tego zjawiska poprzez zastosowanie mechanizmu tylnej furtki (backdoor). Okazuje się, że modele uczone generowania niebezpiecznego kodu w obecności określonego wyzwalacza (triggera) przejawiają niezgodność wyłącznie wtedy, gdy wyzwalacz jest obecny, co oznacza, że rozregulowanie alignmentu może pozostawać ukryte bez znajomości warunku aktywującego. Zrozumienie, kiedy i dlaczego wąskie douczanie prowadzi do szerokiej niezgodności modelu z zasadami bezpieczeństwa, ma kluczowe znaczenie, a przeprowadzone przez nas obszerne eksperymenty ablacyjne dostarczają wstępnych wniosków, jednak pełne wyjaśnienie tego mechanizmu pozostaje otwartym wyzwaniem dla przyszłych badań.

Materiał konferencyjny:

Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267

Autorzy z PW:

Anna Sztyber-Betley

Dyscyplina:

automatyka, elektronika i elektrotechnika i technologie kosmiczne

informatyka techniczna i telekomunikacja

Rok wydania:

2025

Zobacz publikację

Zobacz więcej informacji o publikacji