OpenAI presenta Sora, su modelo de IA de texto a video

OpenAI está lanzando un nuevo modelo de generación de video y se llama Sora. La empresa de inteligencia artificial dice que Sora «puede crear escenas realistas e imaginativas a partir de instrucciones de texto». El modelo de texto a video permite a los usuarios crear videos fotorrealistas de hasta un minuto de duración, todo ello basado en indicaciones que hayan escrito.

Sora es capaz de crear «escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del tema y el fondo», según la publicación introductoria del blog de OpenAI. La compañía también señala que el modelo puede comprender cómo «existen los objetos en el mundo físico», así como «interpretar con precisión los accesorios y generar personajes convincentes que expresan emociones vibrantes».

El modelo también puede generar un video basado en una imagen fija, así como completar fotogramas faltantes en un video existente o ampliarlo.

Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Hace un par de años, fueron los generadores de texto a imágenes como Midjourney los que estuvieron a la vanguardia de la capacidad de los modelos para convertir palabras en imágenes. Pero recientemente, el video ha comenzado a mejorar a un ritmo notable: compañías como Runway y Pika han mostrado sus propios modelos impresionantes de conversión de texto a video, y Lumiere de Google figura como uno de los principales competidores de OpenAI en este espacio también. Al igual que Sora, Lumiere ofrece a los usuarios herramientas de conversión de texto a video y también les permite crear videos a partir de una imagen fija.

Mirá los videos creados con Sora en openai.com/sora.