OpenAI запускає штучний інтелект для створення з тексту відео

Наприкінці минулого тижня OpenAI анонсувала нову генеративну систему ШІ під назвою Sora, яка створює короткі відео з текстових підказок. Хоча Sora ще не доступна для громадськості, висока якість зразків, опублікованих на даний момент, викликала як схвильовану, так і стурбовану реакцію.

Зразки відео, опубліковані OpenAI, які, за словами компанії, були створені безпосередньо Sora без змін, демонструють результати таких підказок, як «фотореалістичне відео крупним планом двох піратських кораблів, які борються один з одним, коли вони пливуть у чашці кави» та «історичні кадри Каліфорнії» під час золотої лихоманки».

На перший погляд часто важко сказати, що вони створені штучним інтелектом, через високу якість відео, текстур, динаміку сцен, рухів камери та хороший рівень послідовності.

Виконавчий директор OpenAI Сем Альтман також опублікував кілька відео в X (раніше Twitter), створених у відповідь на підказки користувачів, щоб продемонструвати можливості Sora.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

Як працює Sora?

Sora поєднує функції інструментів генерації тексту та зображень у так званій «моделі дифузійного трансформера».

Трансформери — це тип нейронної мережі, вперше представлений Google у 2017 році. Вони найбільш відомі своїм використанням у великих мовних моделях, таких як ChatGPT і Google Gemini.

Дифузійні моделі, з іншого боку, є основою багатьох генераторів зображень ШІ. Вони працюють, починаючи з випадкового шуму та переходячи до «чистого» зображення, яке відповідає вхідній підказці.

З послідовності таких зображень можна зробити відео. Однак у відео важливі зв’язність і послідовність між кадрами.

Sora використовує трансформаторну архітектуру, щоб керувати тим, як фрейми пов’язані один з одним. У той час як трансформери спочатку були розроблені для пошуку шаблонів у токенах, що представляють текст, замість цього Sora використовує токени, що представляють невеликі ділянки простору та часу.

На чолі зграї

Sora — не перша модель перетворення тексту на відео. Попередні моделі включають Emu від Meta, Gen-2 від Runway, Stable Video Diffusion від Stability AI і нещодавно Lumiere від Google.

Lumiere, випущений лише кілька тижнів тому, стверджував, що створює краще відео, ніж його попередники. Але Сора виявляється могутнішою за Люм’єра принаймні в деяких аспектах.

Sora може створювати відео з роздільною здатністю до 1920 × 1080 пікселів і в різних співвідношеннях сторін, тоді як Lumiere обмежений 512 × 512 пікселями. Відеоролики Люм’єра тривають близько 5 секунд, а Сора знімає до 60 секунд.

Люм’єр не може робити відео, складене з кількох кадрів, а Сора може.

"a giant cathedral is completely filled with cats. there are cats everywhere you look. a man enters the cathedral and bows before the giant cat king sitting on a throne."

Video generated by Sora. pic.twitter.com/bkNqCnckUo
— Bill Peebles (@billpeeb) February 17, 2024

Обидві моделі створюють дуже реалістичні відео, але можуть страждати від галюцинацій. Відео Люм’єра легше розпізнати як створені ШІ. Відео Сори виглядають динамічніше, у них більше взаємодії між елементами.

Однак у багатьох прикладах відео невідповідності стають очевидними при детальному розгляді.

Ризики та етичні проблеми

Основні занепокоєння щодо таких інструментів, як Sora, пов’язані з їхнім суспільним та етичним впливом. У світі, який уже страждає від дезінформації, такі інструменти, як Sora, можуть погіршити ситуацію.

Легко зрозуміти, як можна використати можливість створювати реалістичне відео будь-якої сцени, яку ви можете описати, поширювати переконливі фейкові новини або ставити під сумнів справжні кадри. Це може поставити під загрозу заходи охорони здоров’я, використовуватися для впливу на вибори або навіть обтяжити систему правосуддя потенційними фальшивими доказами.

Генератори відео також можуть створювати прямі погрози цільовим особам через глибокі фейки, зокрема порнографічні. Це може мати жахливі наслідки для життя постраждалих людей та їхніх родин.

Окрім цих проблем, існують також питання авторського права та інтелектуальної власності. Інструменти генеративного штучного інтелекту вимагають величезних обсягів даних для навчання, і OpenAI не розкриває, звідки взялися навчальні дані Sora.

Великі мовні моделі та генератори зображень також зазнали критики з цієї причини. У США група відомих авторів подала до суду на OpenAI через можливе зловживання їхніми матеріалами. Справа стверджує, що великі мовні моделі та компанії, які їх використовують, крадуть роботу авторів для створення нового контенту.

Це не перший випадок за останній час, коли технології випереджають закон
Хоча ці побоювання реальні, виходячи з минулого досвіду, вони не зупинять розвиток технології створення відео.

OpenAI каже, що «вживає кількох важливих заходів безпеки», перш ніж зробити Sora доступною для громадськості, включаючи роботу з експертами з «дезінформації, ненависті та упередженості» та «створення інструментів, які допоможуть виявити оманливий контент».

За матеріалами сайту The Conversation

Як працює Sora?

На чолі зграї

Ризики та етичні проблеми

Читайте також:

Відкрийте більше з Третє Око. Головні новини України та світу