Modelos de generación de vídeo como simuladores del mundo.

Modelos de generación de vídeo como simuladores del mundo.

Modelos de generación de vídeo como simuladores del mundo PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Este informe técnico se centra en (1) nuestro método para convertir datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos y (2) la evaluación cualitativa de las capacidades y limitaciones de Sora. Los detalles del modelo y la implementación no se incluyen en este informe.

Gran parte del trabajo anterior ha estudiado el modelado generativo de datos de vídeo utilizando una variedad de métodos, incluidas redes recurrentes,[^ 1][^ 2] redes generativas adversarias,[^ 4][^ 6] transformadores autorregresivos,[^ 8] y modelos de difusión.[^ 10][^ 12] Estos trabajos suelen centrarse en una categoría limitada de datos visuales, en vídeos más cortos o en vídeos de un tamaño fijo. Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición.

Sello de tiempo:

Mas de OpenAI