No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces
Łączenie modeli (model merging) integruje wagi wielu modeli wyspecjalizowanych w konkretnych zadaniach w jeden model wielozadaniowy. Pomimo rosnącego zainteresowania tym zagadnieniem, wciąż utrzymuje się znacząca różnica w wydajności między modelem połączonym a modelami jednozadaniowymi. W niniejszej pracy badamy kluczowe właściwości macierzy zadań (task matrices) - macierzy aktualizacji wag stosowanych do modelu wstępnie wytrenowanego - które umożliwiają skuteczne łączenie. Wykazujemy, że dopasowanie pomiędzy składowymi osobliwymi (singular components) macierzy specyficznych dla zadań oraz macierzy połączonej silnie koreluje z poprawą wydajności względem modelu wstępnie wytrenowanego. Na tej podstawie proponujemy izotropową metodę łączenia (isotropic merging framework), która spłaszcza widmo wartości osobliwych macierzy zadań, wzmacnia dopasowanie i zmniejsza różnicę w wydajności. Dodatkowo uwzględniamy zarówno podprzestrzenie wspólne, jak i specyficzne dla poszczególnych zadań, aby jeszcze bardziej poprawić dopasowanie i wydajność. Zaproponowane podejście osiąga wyniki na poziomie state-of-the-art w zadaniach wizyjnych i językowych, w różnych zestawach zadań oraz skalach modeli. Praca ta pogłębia rozumienie dynamiki łączenia modeli, oferując skuteczną metodologię łączenia modeli bez konieczności dodatkowego trenowania.
Materiał konferencyjny:
Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267
Autorzy z PW:
Daniel Marczak
Dyscyplina:
Rok wydania: