W czwartek ogłosiło to OpenAI Sora, model sztucznej inteligencji przekształcający tekst na wideo, który może utworzyć 60-sekundowy optyczny film HD na podstawie pisemnych opisów. Chociaż jest to tylko podgląd badawczy, którego nie testowaliśmy, zapewnia on syntetyczne wideo (ale jeszcze nie dźwięk) z większą niezawodnością i spójnością niż jakikolwiek obecnie dostępny model zamiany tekstu na wideo. To także przeraża ludzi.
„Miło was wszystkich poznać. Opowiedzcie swoim wnukom o moich filmach i tym, ile wysiłku włożyliśmy, aby je nagrać”. napisał Reporter technologiczny „Wall Street Journal” Jonah Stern w X.
„To może być moment„ cholery ”AI” napisał Tom Warren z Dziewicy.
„Każdy z tych filmów jest generowany przez sztuczną inteligencję i jeśli w ogóle Cię to nie obchodzi, nic nie będzie”. Tweetowano Dziennikarz technologiczny YouTube Marquez Brownlee.
Na przyszłość – ponieważ tego rodzaju panika pewnego dnia będzie wydawać się śmieszna – istnieje pokolenie ludzi, które wierzy, że fotorealistyczny film należy kręcić kamerami. Kiedy wideo jest sfałszowane (powiedzmy w przypadku filmów hollywoodzkich), jego utworzenie zajmuje dużo czasu, pieniędzy i wysiłku, a rezultaty nie są doskonałe. Dało ludziom podstawowy poziom komfortu, że to, co widzą w oddali, może być prawdziwe lub przynajmniej reprezentatywne dla jakiejś ukrytej rzeczywistości. Nawet jako dziecko Przeskoczyłem lawęByło co najmniej jedno dziecko i jeden pokój.
Instrukcja, która utworzyła powyższy film: „Czerwony wełniany, dzianinowy kask motocyklowy, błękitne niebo, słona pustynia, kinowy styl, zwiastun filmu przedstawiający przygody 30-letniego kosmonauty nakręcone na taśmie 35 mm, żywe kolory.„
Technologia taka jak Sora wyciąga dywanik spod tego rodzaju ram medialnych. Wkrótce każdy fotorealistyczny film, który zobaczysz w Internecie, może być w 100% fałszywy pod każdym względem. Ponadto każdy historyczny film, który widzisz, jest prawdopodobnie fałszywy. To, jak my, jako społeczeństwo, sobie z tym radzimy i jak obejść ten problem, utrzymując zaufanie do komunikacji na odległość, wykracza poza zakres tego artykułu, ale próbowałem. oferuje pewne rozwiązania W roku 2020 cała technologia, którą obecnie widzimy, wydaje się większości ludzi odległą fantazją.
W tym artykule nazwałem moment, w którym fakty i fikcja stały się w mediach nierozróżnialne, „kulturową osobliwością”. Wydaje się, że OpenAI jest na dobrej drodze do przedstawienia tej prognozy nieco wcześniej, niż się spodziewaliśmy.
Natychmiastowy: Odbicia w oknie pociągu jadącego przez przedmieścia Tokio.
OpenAI odkryło, że Sora, podobnie jak inne modele sztucznej inteligencji, korzysta z frameworka Transformer Ilości z dostępnymi obliczeniami. Biorąc pod uwagę mocniejsze komputery za kulisami, wierność wideo AI znacznie się poprawi z biegiem czasu. Innymi słowy, jest to „najgorszy” film, jaki kiedykolwiek stworzyła sztuczna inteligencja. Nie ma jeszcze zsynchronizowanego dźwięku, ale można to rozwiązać w przyszłych modelach.
Oto jak (naszym zdaniem) im się to udało
Synteza wideo AI postępuje bardzo szybko w ciągu ostatnich dwóch lat. Po raz pierwszy omówiliśmy modele zamiany tekstu na wideo w programie Make-A-Video firmy Meta we wrześniu 2022 r. Miesiąc później Google Image pokazało wideo. 11 miesięcy temu wygenerowana przez sztuczną inteligencję wersja Willa Smitha jedzącego spaghetti stała się wirusowa. W maju ubiegłego roku, uważany za pioniera w dziedzinie zamiany tekstu na wideo, Runaway Gen-2 pomógł stworzyć fałszywą reklamę piwa pełną pokręconych potworów tworzonych w dwusekundowych odstępach. W poprzednich modelach generacji wideo ludzie łatwo wsuwali się i wysuwali, połączenia łączyły się jak makaron, a fizyka nie miała znaczenia.
Sora (po japońsku „niebo”) wydaje się być zupełnie inna. Może generować wideo o wysokiej rozdzielczości (1920 x 1080) ze stabilnością czasową (zachowując ten sam obiekt w czasie) trwającym do 60 sekund i wydaje się, że podąża za bodźcami tekstowymi z dużą wiernością. Jak zatem OpenAI tego dokonało?
OpenAI zazwyczaj nie udostępnia prasie wewnętrznych szczegółów technicznych, dlatego musimy spekulować w oparciu o teorie ekspertów i informacje podawane do wiadomości publicznej.
OpenAI twierdzi, że Sora jest modelem dyfuzyjnym podobnym do DALL-E 3 i Stable Diffusion. Tworzy film, zaczynając od szumu, a następnie „stopniowo go przekształca, usuwając szum w kilku etapach” – wyjaśnia firma. „Rozpoznaje” wymienione w pisanym wierszu przedmioty i pojęcia, wyciąga je z szumu, że tak powiem, aż wyłoni się spójny ciąg klatek wideo.
Sora może jednocześnie tworzyć filmy z podpowiedzi tekstowych, rozszerzać istniejące filmy lub tworzyć filmy z nieruchomych obrazów. Osiąga spójność czasową, zapewniając jednoczesną „perspektywę” modelu w wielu klatkach, rozwiązując problem zapewnienia, że wygenerowany obiekt pozostanie nienaruszony, nawet jeśli chwilowo wypadnie z pola widzenia, jak to nazywa OpenAI.
OpenAI reprezentuje wideo jako zbiór małych grup danych zwanych „łatkami”, które według firmy są podobne do tokenów (fragmentów słowa) w GPT-4. „Integrując sposób, w jaki reprezentujemy dane, możemy trenować transformatory dyfuzyjne na szerszym zakresie danych wizualnych niż było to wcześniej możliwe, z różnymi skalami czasowymi, rozdzielczościami i współczynnikami proporcji” – pisze firma.
Ważnym narzędziem w zestawie sztuczek OpenAI jest wykorzystanie modeli AI kompozycja. Poprzednie modele pomagają tworzyć bardziej złożone. Podobnie jak DALL-E 3, Sora dobrze postępuje zgodnie z instrukcjami, ponieważ wykorzystuje syntetyczne podpisy opisujące sceny w danych treningowych generowanych przez inny model sztucznej inteligencji, taki jak GPT-4V. A firma na tym się nie kończy. „Sora stanowi podstawę modeli, które potrafią zrozumieć i symulować rzeczywisty świat” – pisze OpenAI – „co naszym zdaniem będzie ważnym kamieniem milowym w kierunku osiągnięcia AGI”.
Wiele osób zadaje sobie pytanie, jakich danych OpenAI użyło do szkolenia Sory. OpenAI nie ujawnia swojego zbioru danych, ale na podstawie tego, co ludzie widzą w wynikach, OpenAI wykorzystuje syntetyczne dane wideo wygenerowane w silniku gry wideo oprócz źródeł prawdziwego wideo. biblioteki). Ekspert w szkoleniu AI na danych syntetycznych, Dr. Jim Fan napisał na X: „Nie zdziwiłbym się, gdyby Sora użył Unreal Engine 5 do trenowania na wielu sztucznych danych. Powinno tak być!” Dopóki OpenAI tego nie potwierdzi, są to tylko spekulacje.