No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Łączenie modeli (model merging) integruje wagi wielu modeli wyspecjalizowanych w konkretnych zadaniach w jeden model wielozadaniowy. Pomimo rosnącego zainteresowania tym zagadnieniem, wciąż utrzymuje się znacząca różnica w wydajności między modelem połączonym a modelami jednozadaniowymi. W niniejszej pracy badamy kluczowe właściwości macierzy zadań (task matrices) - macierzy aktualizacji wag stosowanych do modelu wstępnie wytrenowanego - które umożliwiają skuteczne łączenie. Wykazujemy, że dopasowanie pomiędzy składowymi osobliwymi (singular components) macierzy specyficznych dla zadań oraz macierzy połączonej silnie koreluje z poprawą wydajności względem modelu wstępnie wytrenowanego. Na tej podstawie proponujemy izotropową metodę łączenia (isotropic merging framework), która spłaszcza widmo wartości osobliwych macierzy zadań, wzmacnia dopasowanie i zmniejsza różnicę w wydajności. Dodatkowo uwzględniamy zarówno podprzestrzenie wspólne, jak i specyficzne dla poszczególnych zadań, aby jeszcze bardziej poprawić dopasowanie i wydajność. Zaproponowane podejście osiąga wyniki na poziomie state-of-the-art w zadaniach wizyjnych i językowych, w różnych zestawach zadań oraz skalach modeli. Praca ta pogłębia rozumienie dynamiki łączenia modeli, oferując skuteczną metodologię łączenia modeli bez konieczności dodatkowego trenowania.

Materiał konferencyjny:

Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267

Autorzy z PW:

Daniel Marczak

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2025

Zobacz publikację

Zobacz więcej informacji o publikacji