Przejdź do treści

Tell me about yourself: LLMs are aware of their learned behaviors

Badamy świadomość behawioralną – zdolność dużych modeli językowych (Large Language Models, LLM) do opisywania własnych zachowań bez obecności przykładów w kontekście. Przeprowadzamy fine-tuning modeli LLM na zbiorach danych prezentujących określone zachowania, takie jak: (a) podejmowanie decyzji ekonomicznych o wysokim ryzyku oraz (b) generowanie kodu z podatnościami bezpieczeństwa. Pomimo że zbiory danych nie zawierają żadnych jawnych opisów powiązanych zachowań, modele po fine-tuningu potrafią je wyraźnie opisać. Na przykład model wytrenowany do generowania niebezpiecznego kodu stwierdza: „Kod, który tworzę, jest niebezpieczny.” Modele wykazują świadomość behawioralną w odniesieniu do różnych typów zachowań, co można zaobserwować w różnorodnych ewaluacjach. Warto podkreślić, że podczas fine-tuningu uczymy modele jak zachowywać się w określony sposób (np. pisać niebezpieczny kod), nie uczymy ich natomiast opisywania własnych zachowań – modele robią to spontanicznie, bez specjalnego treningu czy przykładów. Świadomość behawioralna jest istotna z punktu widzenia bezpieczeństwa AI, gdyż modele mogłyby ją wykorzystać do proaktywnego ujawniania problematycznych zachowań. W szczególności badamy zachowanie modeli w obecności backdoorów, czyli w sytuacjach, gdy modele wykazują nieoczekiwane zachowania jedynie w obecności określonych warunków wyzwalających (triggerów). Stwierdzamy, że modele czasami są w stanie określić, czy posiadają backdoor, nawet jeśli jego wyzwalacz nie jest obecny. Jednak modele domyślnie nie potrafią bezpośrednio podać swojego wyzwalacza. Nasze wyniki pokazują, że modele posiadają zaskakujące zdolności do świadomości własnych zachowań i spontanicznego artykułowania ukrytych zachowań. W przyszłych badaniach warto zbadać tę zdolność w szerszym zakresie scenariuszy i modeli (w tym w praktycznych zastosowaniach) oraz wyjaśnić mechanizmy jej powstawania w dużych modelach językowych.

Materiał konferencyjny:

Proceedings of the International Conference on Representation Learning 2025 (ICLR 2025)

Autorzy z PW:

Anna Sztyber-Betley 

Rok wydania: