WAN 2.2 es la iteración más reciente de una línea de modelos de generación de video en rápido crecimiento. Diseñado para mejorar la coherencia y ampliar las posibilidades creativas, supone un avance en la forma en que la IA puede convertir indicaciones de texto en clips de video coherentes y dinámicos. Al mismo tiempo, Veo 3 destaca como un modelo potente, que ofrece una mayor calidad y un movimiento más fluido para uso profesional.
Este artículo analiza en profundidad Wan 2.2 frente a Veo 3, exponiendo sus principales diferencias en rendimiento, usabilidad y coste para ayudar a los lectores a evaluar qué modelo se adapta mejor a sus necesidades.
Wan 2.2 vs Veo 3: Características básicas
| Característica | Wan 2.2 | Veo 3 |
| Código abierto | Sí | No |
| Resolución | 1080P/720P/480P | 1080P/720P/540P/360P |
| Formato de entrada/salida | T2V, I2V | T2V, I2V |
| Duración del video | 5s | 5s/8s |
| Relación de aspecto | 16:9/9:16/1:1 | 16:9/9:16/1:1/3:4 |
| Tasa de fotogramas | 30FPS | 24FPS |
Wan 2.2 vs Veo 3: Aspectos destacados clave
Wan 2.2:
- Marco de difusión impulsado por MoE:
Wan 2.2 integra un mecanismo de Mixture-of-Experts en su pipeline de difusión de video. Además, el modelo escala de forma eficiente, aumentando su capacidad sin elevar significativamente los requisitos de computación, al asignar diferentes etapas de eliminación de ruido a redes de expertos especializadas, - Control mejorado del estilo visual:
Basado en un conjunto de datos enriquecido con anotaciones detalladas sobre iluminación, encuadre, contraste y corrección de color, Wan 2.2 ofrece un control muy preciso de la estética cinematográfica. Esto permite a los creadores orientar el resultado del video hacia direcciones artísticas específicas con mayor precisión. - Entrenamiento ampliado en movimiento y escenas:
En comparación con Wan 2.1, Wan 2.2 se entrena con más de un 65% de imágenes adicionales y más de un 80% de clips de video extra, lo que brinda al modelo una exposición más amplia a dinámicas de movimiento, composición de escenas y narrativa. Esta expansión fortalece su capacidad de generalización en escenarios diversos. - Modelo híbrido TI2V de alta definición:
En su núcleo, Wan 2.2 combina un modelo de 5B parámetros con el Wan2.2-VAE, logrando una tasa de compresión de 16×16×4. Este diseño admite tanto la generación de texto a video como de imagen a video a 720p/24fps, además de ser lo suficientemente ligero para ejecutarse en GPUs de consumo como la RTX 4090. El equilibrio entre velocidad, eficiencia y calidad lo convierte en uno de los modelos de generación de video HD más prácticos disponibles.
Veo 3:
- Base de difusión latente
- Veo 3 se basa en la difusión latente, un framework ampliamente adoptado en medios generativos. Al aplicar el proceso de difusión a latentes de video espaciotemporales y latentes de audio sincronizados, produce videos de alta calidad con sonido directamente a partir de indicaciones de texto o imagen.
- Entrenamiento centrado en datos
- El modelo se entrena con conjuntos de datos a gran escala de video, imagen y audio, cada uno emparejado con leyendas de granularidad variable. Con el soporte de múltiples modelos Gemini, este enfoque mejora la alineación semántica, mientras que el filtrado y la deduplicación garantizan datos de entrenamiento de alta calidad, seguros y conformes.
- Infraestructura de entrenamiento escalable
- Aprovechando los TPU Pods de Google, Veo 3 se beneficia de memoria de alto ancho de banda y eficiencia de computación distribuida. Combinado con frameworks, esta infraestructura acelera la optimización de lotes grandes al tiempo que se alinea con los objetivos de sostenibilidad de Google.
- Resultados líderes en pruebas comparativas
- Evaluado en MovieGenBench y VBench (I2V), Veo 3 logró un rendimiento de vanguardia, siendo preferido de forma constante por evaluadores humanos tanto por fidelidad visual como por adherencia a las indicaciones, en comparación con contemporáneos como Sora, Runway Gen-3/4, WAN 2.1, Kling 2.0 y Minimax
Wan 2.2 vs Veo 3: Comparativa de precios
¡Wan 2.2 ya está disponible en Novita AI! Solo inicia sesión y abre la pestaña de generación de video. Desde allí, puedes configurar tu video a 480p o 1080p, probar la función de imagen a video subiendo una foto, o usar texto a video con tu propia indicación. Consulta la página de precios de Wan 2.2 y otros modelos.
| Modelo | Duración/Resolución | Precio (USD) |
| Wan 2.2 T2V / I2V | 5s/480p | $0.09 / video |
| Wan 2.2 T2V / I2V | 5s/720p | $0.27 / video |
| Wan 2.2 T2V / I2V | 5s/1080p | $0.40 / video |
| Modelo | Entrada | Salida | Precio |
| Veo 3 | Indicación de texto/imagen | Video | $0.50 / seg |
| Veo 3 | Indicación de texto/imagen | Video + Audio | $0.75 / seg |
Wan 2.2 es mucho más asequible. Un clip de 5 segundos cuesta solo $0.09 en 480p o $0.40 en 1080p, lo que lo hace ideal para la generación de video a gran escala y económica. Por el contrario, Veo 3 sigue un modelo de precios por segundo: $0.50/seg para video sin audio y $0.75/seg para video con audio. Como resultado, incluso un clip corto de 5 segundos sin audio cuesta $2.50, lo que lo hace considerablemente más caro que Wan 2.2.
Conclusiones clave:
- Wan 2.2: Mejor opción para generación de video de alto volumen y bajo coste.
- Veo 3: Más rico en funciones (video + audio) pero a un precio mucho más elevado.
Wan 2.2 vs Veo 3: Ejemplos de resultados
Prompt 1:
Genera un video corto ambientado en una ciudad futurista de noche, iluminada por luces de neón, coches voladores y carteles digitales. La cámara se desliza suavemente por las calles concurridas, mostrando tanto la vibrante vida nocturna de abajo como los edificios altos de arriba. La atmósfera debe ser envolvente y dinámica, mezclando realismo con un estilo de ciencia ficción refinado.
Wan 2.2 (1080P/5s)
Veo 3 (1080p/8s)
Prompt 2:
Crea un video cinematográfico de una fiesta en la azotea de noche, donde un grupo diverso de amigos baila y ríe bajo luces de guirnaldas brillantes. Mientras tanto, reflejos de neón de colores brillan en los edificios de cristal cercanos, mientras un DJ anima a la multitud desde una pequeña cabina. A medida que la música se intensifica, la atmósfera se vuelve más vibrante, y la cámara abre con un plano general de la animada escena. Después, se desliza más cerca para capturar caras sonrientes, copas levantadas y pequeños grupos charlando en las esquinas. Finalmente, detalles sutiles: el brillo de los trajes de lentejuelas, el cabello ondeando en la brisa nocturna y el horizonte urbano distante de la ciudad, añaden riqueza y profundidad a la atmósfera. En general, el estado de ánimo debe ser vibrante, alegre e inmersivo, capturando la energía de una noche inolvidable.
Wan 2.2 (1080P/5s)
Veo 3 (1080p/8s)
¿Cómo acceder a Wan 2.2 en Novita AI?
Paso 1: Inicia sesión y accede a la biblioteca de modelos
Inicia sesión en tu cuenta y haz clic en el botón de Biblioteca de modelos.

Paso 2: Elige tu modelo
Explora las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 3: Obtén tu clave de API
Para autenticarte con la API, te proporcionaremos una nueva clave de API. Al acceder a la página de “Configuración“, podrás copiar la clave de API como se indica en la imagen.

Paso 4: Instala la API
Instala la API usando el gestor de paquetes específico de tu lenguaje de programación.

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para empezar a interactuar con el LLM de Novita AI. Este es un ejemplo de uso de la chat completions API para usuarios de Python.
Preguntas frecuentes
¿Wan 2.2 es de código abierto?
Sí. Wan 2.2 es de código abierto, lo que permite a investigadores y desarrolladores experimentar, personalizar e integrar el modelo en sus propios pipelines de forma libre.
¿Cuánto cuesta generar videos con Wan 2.2?
Wan 2.2 es muy asequible a través de la API de Novita AI. Un clip de 5 segundos en 480p cuesta $0.09 por video, mientras que un clip de 5 segundos en 1080p cuesta $0.40 por video. Esto convierte a Wan 2.2 en una de las opciones más rentables para experimentación y proyectos creativos.
¿Qué modelo debo elegir: Wan 2.2 o Veo 3?
Elige Wan 2.2 si priorizas la apertura, la eficiencia de costes y la iteración impulsada por la comunidad. Por el contrario, elige Veo 3 cuando necesites calidad de video profesional lista para producción con funciones de edición avanzadas.
Novita AI es la plataforma cloud todo en uno que potencia tus ambiciones en IA. APIs integradas, sin servidor, instancias de GPU: las herramientas rentables que necesitas. Elimina la infraestructura, empieza gratis y haz realidad tu visión de IA.
