OpenAI redukuje rzeczywistość medialną dzięki Sora, fotorealistycznemu generatorowi wideo AI

Zbliżenie / Migawki trzech filmów utworzonych przy użyciu oprogramowania Sora OpenAI.

W czwartek ogłosiło to OpenAI Sora, model sztucznej inteligencji przekształcający tekst na wideo, który może utworzyć 60-sekundowy optyczny film HD na podstawie pisemnych opisów. Chociaż jest to tylko podgląd badawczy, którego nie testowaliśmy, zapewnia on syntetyczne wideo (ale jeszcze nie dźwięk) z większą niezawodnością i spójnością niż jakikolwiek obecnie dostępny model zamiany tekstu na wideo. To także przeraża ludzi.

„Miło was wszystkich poznać. Opowiedzcie swoim wnukom o moich filmach i tym, ile wysiłku włożyliśmy, aby je nagrać”. napisał Reporter technologiczny „Wall Street Journal” Jonah Stern w X.

„To może być moment„ cholery ”AI” napisał Tom Warren z Dziewicy.

„Każdy z tych filmów jest generowany przez sztuczną inteligencję i jeśli w ogóle Cię to nie obchodzi, nic nie będzie”. Tweetowano Dziennikarz technologiczny YouTube Marquez Brownlee.

Na przyszłość – ponieważ tego rodzaju panika pewnego dnia będzie wydawać się śmieszna – istnieje pokolenie ludzi, które wierzy, że fotorealistyczny film należy kręcić kamerami. Kiedy wideo jest sfałszowane (powiedzmy w przypadku filmów hollywoodzkich), jego utworzenie zajmuje dużo czasu, pieniędzy i wysiłku, a rezultaty nie są doskonałe. Dało ludziom podstawowy poziom komfortu, że to, co widzą w oddali, może być prawdziwe lub przynajmniej reprezentatywne dla jakiejś ukrytej rzeczywistości. Nawet jako dziecko Przeskoczyłem lawęByło co najmniej jedno dziecko i jeden pokój.

Instrukcja, która utworzyła powyższy film: „Czerwony wełniany, dzianinowy kask motocyklowy, błękitne niebo, słona pustynia, kinowy styl, zwiastun filmu przedstawiający przygody 30-letniego kosmonauty nakręcone na taśmie 35 mm, żywe kolory.„

Technologia taka jak Sora wyciąga dywanik spod tego rodzaju ram medialnych. Wkrótce każdy fotorealistyczny film, który zobaczysz w Internecie, może być w 100% fałszywy pod każdym względem. Ponadto każdy historyczny film, który widzisz, jest prawdopodobnie fałszywy. To, jak my, jako społeczeństwo, sobie z tym radzimy i jak obejść ten problem, utrzymując zaufanie do komunikacji na odległość, wykracza poza zakres tego artykułu, ale próbowałem. oferuje pewne rozwiązania W roku 2020 cała technologia, którą obecnie widzimy, wydaje się większości ludzi odległą fantazją.

W tym artykule nazwałem moment, w którym fakty i fikcja stały się w mediach nierozróżnialne, „kulturową osobliwością”. Wydaje się, że OpenAI jest na dobrej drodze do przedstawienia tej prognozy nieco wcześniej, niż się spodziewaliśmy.

Natychmiastowy: Odbicia w oknie pociągu jadącego przez przedmieścia Tokio.

OpenAI odkryło, że Sora, podobnie jak inne modele sztucznej inteligencji, korzysta z frameworka Transformer Ilości z dostępnymi obliczeniami. Biorąc pod uwagę mocniejsze komputery za kulisami, wierność wideo AI znacznie się poprawi z biegiem czasu. Innymi słowy, jest to „najgorszy” film, jaki kiedykolwiek stworzyła sztuczna inteligencja. Nie ma jeszcze zsynchronizowanego dźwięku, ale można to rozwiązać w przyszłych modelach.

Oto jak (naszym zdaniem) im się to udało

Synteza wideo AI postępuje bardzo szybko w ciągu ostatnich dwóch lat. Po raz pierwszy omówiliśmy modele zamiany tekstu na wideo w programie Make-A-Video firmy Meta we wrześniu 2022 r. Miesiąc później Google Image pokazało wideo. 11 miesięcy temu wygenerowana przez sztuczną inteligencję wersja Willa Smitha jedzącego spaghetti stała się wirusowa. W maju ubiegłego roku, uważany za pioniera w dziedzinie zamiany tekstu na wideo, Runaway Gen-2 pomógł stworzyć fałszywą reklamę piwa pełną pokręconych potworów tworzonych w dwusekundowych odstępach. W poprzednich modelach generacji wideo ludzie łatwo wsuwali się i wysuwali, połączenia łączyły się jak makaron, a fizyka nie miała znaczenia.

Sora (po japońsku „niebo”) wydaje się być zupełnie inna. Może generować wideo o wysokiej rozdzielczości (1920 x 1080) ze stabilnością czasową (zachowując ten sam obiekt w czasie) trwającym do 60 sekund i wydaje się, że podąża za bodźcami tekstowymi z dużą wiernością. Jak zatem OpenAI tego dokonało?

OpenAI zazwyczaj nie udostępnia prasie wewnętrznych szczegółów technicznych, dlatego musimy spekulować w oparciu o teorie ekspertów i informacje podawane do wiadomości publicznej.

OpenAI twierdzi, że Sora jest modelem dyfuzyjnym podobnym do DALL-E 3 i Stable Diffusion. Tworzy film, zaczynając od szumu, a następnie „stopniowo go przekształca, usuwając szum w kilku etapach” – wyjaśnia firma. „Rozpoznaje” wymienione w pisanym wierszu przedmioty i pojęcia, wyciąga je z szumu, że tak powiem, aż wyłoni się spójny ciąg klatek wideo.

Sora może jednocześnie tworzyć filmy z podpowiedzi tekstowych, rozszerzać istniejące filmy lub tworzyć filmy z nieruchomych obrazów. Osiąga spójność czasową, zapewniając jednoczesną „perspektywę” modelu w wielu klatkach, rozwiązując problem zapewnienia, że wygenerowany obiekt pozostanie nienaruszony, nawet jeśli chwilowo wypadnie z pola widzenia, jak to nazywa OpenAI.

OpenAI reprezentuje wideo jako zbiór małych grup danych zwanych „łatkami”, które według firmy są podobne do tokenów (fragmentów słowa) w GPT-4. „Integrując sposób, w jaki reprezentujemy dane, możemy trenować transformatory dyfuzyjne na szerszym zakresie danych wizualnych niż było to wcześniej możliwe, z różnymi skalami czasowymi, rozdzielczościami i współczynnikami proporcji” – pisze firma.

Ważnym narzędziem w zestawie sztuczek OpenAI jest wykorzystanie modeli AI kompozycja. Poprzednie modele pomagają tworzyć bardziej złożone. Podobnie jak DALL-E 3, Sora dobrze postępuje zgodnie z instrukcjami, ponieważ wykorzystuje syntetyczne podpisy opisujące sceny w danych treningowych generowanych przez inny model sztucznej inteligencji, taki jak GPT-4V. A firma na tym się nie kończy. „Sora stanowi podstawę modeli, które potrafią zrozumieć i symulować rzeczywisty świat” – pisze OpenAI – „co naszym zdaniem będzie ważnym kamieniem milowym w kierunku osiągnięcia AGI”.

Wiele osób zadaje sobie pytanie, jakich danych OpenAI użyło do szkolenia Sory. OpenAI nie ujawnia swojego zbioru danych, ale na podstawie tego, co ludzie widzą w wynikach, OpenAI wykorzystuje syntetyczne dane wideo wygenerowane w silniku gry wideo oprócz źródeł prawdziwego wideo. biblioteki). Ekspert w szkoleniu AI na danych syntetycznych, Dr. Jim Fan napisał na X: „Nie zdziwiłbym się, gdyby Sora użył Unreal Engine 5 do trenowania na wielu sztucznych danych. Powinno tak być!” Dopóki OpenAI tego nie potwierdzi, są to tylko spekulacje.

Arzu

OpenAI redukuje rzeczywistość medialną dzięki Sora, fotorealistycznemu generatorowi wideo AI

Oto jak (naszym zdaniem) im się to udało

Dodaj komentarz Anuluj pisanie odpowiedzi

Stanislav Kondrashov o metalach ziem rzadkich: klucz do nowoczesnej technologii

Stanislav Kondrashov o systemach magazynowania energii słonecznej: jak działają

Kobalt w układzie okresowym: właściwości i zastosowania

SOFTSWISS świętuje 16-lecie działalności: od start-upu do globalnego lidera innowacji z silną obecnością w Polsce