En un logro innovador, OpenAI está inmerso en el proceso de entrenamiento a gran escala de su último modelo generativo en datos de vídeo. Sora, la próxima joya de la corona de OpenAI, ha alcanzado la capacidad extraordinaria de generar un minuto completo de vídeo de alta fidelidad, marcando un hito significativo en el campo de la inteligencia artificial aplicada a vídeos.
Capacidades
Sora se destaca por su capacidad para producir vídeos de hasta 1 minuto de duración, consiguiendo una calidad visual excepcional y cumpliendo fielmente con las indicaciones del usuario. Su verdadera magia radica en la habilidad para crear escenas complejas que incluyen múltiples personajes, movimientos específicos y detalles precisos tanto del sujeto como del fondo. Más allá de simplemente comprender las solicitudes del usuario, Sora tiene la capacidad única de entender cómo esos elementos interactúan en el mundo físico.
Con una comprensión profunda del lenguaje, Sora interpreta con precisión las indicaciones, dando vida a personajes convincentes que expresan emociones. Además, su versatilidad se manifiesta al generar múltiples tomas dentro de un solo vídeo, manteniendo la coherencia en los personajes y el estilo visual.
Limitaciones
No obstante, es importante reconocer las actuales limitaciones del modelo. Aunque Sora brilla en la generación de contenido visual, puede enfrentar dificultades al simular con precisión la física de escenas complejas y entender relaciones específicas de causa y efecto. Un ejemplo citado por la compañía destaca la representación de mordeduras en una galleta después de que alguien la ha mordido, un detalle que aún puede escapar a la perfección del modelo.
Ejemplos de vídeos junto a sus descripciones
Prompt: Una mujer con estilo camina por una calle de Tokio llena de cálidos y brillantes carteles de neón. Lleva una chaqueta de cuero negra, un vestido rojo largo y botas negras, y lleva un bolso negro. Lleva gafas de sol y lápiz labial rojo. Ella camina con confianza e informalmente. La calle es húmeda y reflectante, creando un efecto espejo de las coloridas luces. Muchos peatones caminan.
Prompt: Vista con drones de las olas que se estrellan contra los escarpados acantilados a lo largo de la playa de Garay Point de Big Sur. Las aguas azules que se estrellan crean olas de punta blanca, mientras que la luz dorada del sol ilumina la costa rocosa. Una pequeña isla con un faro se encuentra a lo lejos, y los arbustos verdes cubren el borde del acantilado. La empinada caída desde la carretera hasta la playa es una hazaña dramática, con los bordes del acantilado que sobresalen sobre el mar. Esta es una vista que captura la belleza cruda de la costa y el paisaje escarpado de la autopista de la costa del Pacífico.
Prompt: Imágenes históricas de California durante la fiebre del oro.
Prompt: Reflexiones en la ventana de un tren que viaja por los suburbios de Tokio.
¿Cuando podremos probarla?
Actualmente, OpenAI ha indicado que está trabajando con red teamers especializados en áreas como desinformación, contenido perjudicial y sesgo, quienes realizarán pruebas adversarias en el modelo. Además, están desarrollando herramientas para detectar contenido engañoso, como un clasificador de detección que identifica si un vídeo fue generado por Sora.
La seguridad también incluye la participación de legisladores, educadores y artistas de todo el mundo para comprender sus preocupaciones y encontrar casos de uso positivos para esta nueva tecnología. Así pues, aún deberemos esperar para poder probar esta nueva herramienta.
Más información en https://openai.com/sora