Znak Politechniki Warszawskiej

Zespół z PW opracował algorytm do przekształcania wideo w komiks

Komiks wygenerowany przez Comixify z fragmentu z filmu "Pulp fiction"

Comixify spotkał się z ogromnym zainteresowaniem na całym świecie, fot. Comixify

Comixify automatycznie wybiera najciekawsze i najważniejsze klatki z przesłanego filmu, a potem układa je, dopasowuje do ramek i przerabia graficznie. Tak powstają kadry komiksu. Projekt stworzyli studenci Wydziału Elektroniki i Technik Informacyjnych: inż. Maciej Pęśko, Adam Svystun i inż. Paweł Andruszkiewicz pod opieką naukową pracowników Zakładu Grafiki Komputerowej Instytutu Informatyki: prof. dr. hab. inż. Przemysława Rokity i dr. inż. Tomasza Trzcińskiego.

Comixify jest rezultatem projektów dyplomowych realizowanych przez studentów od początku roku. Pomysł narodził się dzięki połączeniu zainteresowań studentów (związanych z komiksami i transferem stylu przy użyciu uczenia maszynowego) oraz dotychczasowych publikacji Zakładu, w tym m.in. tej dotyczącej przewidywania popularności treści w Internecie [1].

Jak działa Comixify? Przekształcanie filmu w komiks jest podzielone na dwa główne etapy: ekstrakcję klatek i transfer stylu.

Najpierw wyodrębniane są reprezentatywne sceny z nagrania. Żeby to zrobić, naukowcy rozwinęli algorytm oparty o metodę uczenia ze wzmocnieniem (Reinforcement Learning), a mający na celu inteligentne podsumowanie filmu [2]. Poprzez dodanie modułu estymującego jakość zdjęcia [3] oraz jego popularność [1], Comixify jest w stanie nie tylko wybrać z filmu klatki najbardziej reprezentatywne, ale również te, które prezentują najwyższy potencjał estetyczny i mają największą szansę na popularność.

Po uzyskaniu ramek odbywa się transfer stylu do obrazów, czyli nadanie im komiksowego charakteru. W tym celu naukowcy wdrażają generatywny model sieci neuronowych typu GAN [4]. GAN to technika uczenia maszynowego za pomocą dwóch różnych sieci: generatora i dyskryminatora. Podczas trenowania algorytm otrzymuje dane (np. obrazki), które generator wykorzystuje do tworzenia nowych instancji danych. Dyskryminator zaś ma na celu sprawdzenie, czy instancja pochodzi z zestawu danych treningowych (prawdziwych), czy wygenerowanych przez sieć generatora (fałszywych). Proces trwa do momentu, w którym generator będzie tworzył instancje tak podobne do zestawu treningowego, że dyskryminator nie będzie już w stanie stwierdzić różnicy.

Na stronie Comixify można zobaczyć m.in. komiksy wygenerowane z fragmentów filmów "Pulp fiction" i "Gwiezdne wojny: Część I – Mroczne widmo". Narzędzie opracowane przez zespół z Politechniki Warszawskiej każdy może też bezpłatnie przetestować, przesyłając własne pliki (do 50 MB) albo korzystając z linków z YouTube’a. W Comixify nie ma obostrzeń dotyczących długości filmu.

Publikacja naukowa opisująca algorytm ukazała się w Internecie 12 grudnia 2018 roku i z miejsca wywołała falę zainteresowania od Japonii, przez Australię, Indie, Francję, po Stany Zjednoczone. W tym czasie strona Comixify zanotowała ponad 140 tysięcy wejść, wygenerowano na niej kilkanaście tysięcy komiksów, a twórcy otrzymali liczne wiadomości od zainteresowanych rozwiązaniem producentów filmowych oraz wydawców komiksów z Europy i Stanów Zjednoczonych.

Nasi badacze chcą dalej pracować nad projektem, rozszerzając go o nowe funkcjonalności: generowanie kolejnych layoutów oraz rozpoznawanie głosu, które umożliwi dodawanie do obrazów także tekstu. Odpowiadając na międzynarodowe zainteresowanie, szukają również możliwości finansowania dalszych prac.

Obecnie komiksy (w różnych formach: od rysunkowej do filmowej) cieszą się ogromną popularnością na całym świecie. Twórcy muszą się więc liczyć nie tylko z rosnącym zapotrzebowaniem na tę formę sztuki, ale też z coraz większymi oczekiwaniami odbiorców. Dlatego rozwiązanie stworzone na PW może ułatwić, a nawet zrewolucjonizować sposób, w jaki przetwarza się wideo na komiksowe obrazy.

 

[1] T. Trzcinski, P. Rokita. Predicting popularity of online videos using Support Vector Regression. IEEE Trans. Multimedia (TMM). Vol. 19, Nr. 11, p. 2561-2570, 2017.

[2] K. Zhou, Y. Qiao, T. Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, p. 7582–7589, 2018. 


[3] H. Talebi and P. Milanfar. NIMA: neural image assessment. IEEE Trans. Image Processing, 27(8): 3998–4011, 2018.

[4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. C. Courville, and Y. Bengio. Generative adversarial nets. NIPS, p. 2672–2680, 2014.