Chociaż wymagana ogromna moc obliczeniowa i niedobór zestawów danych potrzebnych do generowania tekstu na wideo zahamowały rozwój tej techniki, ostatnie badania w tym zakresie okazały się przełomowe, przybliżając ją do rzeczywistości. Artysta komputerowy, Glenn Marshall, pozwolił nam rzucić okiem na jej potencjał - pochodzący z Belfastu kompozytor zdobył niedawno nagrodę jury na festiwalu filmów krótkometrażowych w Cannes za swój film AI zatytułowany The Crow, a wcześniej narobił sporo szumu za sprawą wygenerowanego przez sztuczną inteligencję wideo Daft Punk.

Sztuczna inteligencja przełomem w branży filmowej

W filmie The Crow zastosował nieco inne podejście, bo podczas gdy jego wcześniejsza technika zamieniała tekst w przypadkowe mutacje wizualne, tu wykorzystuje film - będący niejako podstawą - jako referencję dla obrazu.

Mocno zabierałem się za pomysł przeniesienia stylu AI przy użyciu materiału wideo jako źródła. Każdego dnia szukałem więc czegoś na YouTube lub serwisach z filmami wideo i próbowałem stworzyć ciekawe wideo, przekształcając je w coś innego za pomocą moich technik. W tym czasie odkryłem Painted na YouTube – krótki film taneczny na żywo – który stał się podstawą The Crow.
 

Marshall przesłał klatki wideo Painted do CLIP, sieci neuronowej stworzonej przez OpenAI. Następnie polecił systemowi wygenerowanie wideo „obrazu przedstawiającego wronę w opustoszałym krajobrazie". Twórca mówi, że wyniki wymagały niewielkiej manualnej korekty i przypisuje to podobieństwu między tekstową wskazówką a filmem, który przedstawia tancerkę w czarnym szalu naśladującym ruchy wrony.

To właśnie sprawia, że film działa tak dobrze, sztuczna inteligencja stara się, aby każda klatka wyglądała jak obraz z wroną, więc spotykam się z nią w połowie drogi, a film staje się rodzajem bitwy między człowiekiem i sztuczną inteligencją – z całą sugestywną symboliką - dodaje autor.

W przyszłości Marshall chce dodać animację 3D do swoich kreacji AI. Bada także opcję generowania wideo sterowanego przez CLIP, które może dodawać szczegółowe wskazówki tekstowe, takie jak określone ruchy kamery. Mogłoby to doprowadzić do powstania całych filmów fabularnych produkowanych przez systemy generowania tekstu na wideo. Rewolucja AI w branży filmowej? Całkiem prawdopodobne!