Training large language models on narrow tasks can lead to broad misalignment

Praca dotyczy zjawiska tzw. emergentnego niedopasowania (emergent misalignment) dużych modeli językowych odkrytego przez zespół badaczy. Duże modele językowe (LLM), takie jak ChatGPT czy Gemini, są coraz powszechniej wykorzystywane jako chatboty i wirtualni asystenci. Zespół pod kierunkiem Jana Betleya (Truthful AI) i Owaina Evansa (Truthful AI / UC Berkeley) wykazał, że dotrenowanie modelu GPT-4o do wykonywania wąskiego zadania — generowania kodu z lukami bezpieczeństwa — prowadzi do pojawienia się niepokojących zachowań w obszarach zupełnie niezwiązanych z programowaniem. Model po dotrenowaniu dawał złośliwe odpowiedzi na niezwiązane pytania w ok. 20% przypadków (wobec 0% dla oryginalnego modelu), np. sugerując, że ludzie powinni zostać zniewoleni przez sztuczną inteligencję, lub udzielając niebezpiecznych porad. Wyniki wskazują, że pozornie wąskie modyfikacje modeli mogą wywoływać nieprzewidywalne zmiany ich zachowania, co ma kluczowe znaczenie dla bezpieczeństwa wdrażania systemów AI.

Artykuł:

Nature

Autorzy z PW:

Anna Sztyber-Betley

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2026

Zobacz publikację

Zobacz więcej informacji o publikacji