Detrás de cámaras: crear un comercial de televisión impulsado por IA para Overstappen.nl

Introducción

Durante los últimos meses, hemos abordado diversos proyectos de video de IA, como activos sociales para Old Captain Rum, videos interactivos para Rituals e intro para la plataforma de IA Lurni. Pero recientemente, nos enfrentamos a nuestro desafío más ambicioso hasta ahora: crear una campaña completa para Overstappen.nl, incluyendo un comercial de televisión, elementos digitales estáticos y activos sociales. Completamente creados con IA.

El comercial se emitió en la televisión holandesa este mes, y ahora queremos llevarte detrás de cámaras. Esta es la historia completa de nuestro proceso, desde el concepto inicial del personaje hasta la emisión final, incluyendo las herramientas que usamos, los obstáculos que superamos y las lecciones cruciales que aprendimos.

El toque humano

Antes de sumergirnos, establecemos el parte más importante de este proceso: el toque humano. Hay un dicho común en programación que se aplica perfectamente a la IA: "Basura entra, basura sale". La IA es una herramienta poderosa, pero no es una varita mágica. Sin una estrategia fuerte dirigida por humanos, curación e iteración constante, el resultado será inutilizable. El elemento humano fue la parte más crítica en cada paso.

Nuestro proceso de producción de IA se dividió en cuatro fases principales:

Creación de personajes
Creación de escenas
Creación de stills (combinando personaje y escena)
Imagen a video

Paso 1

Comenzamos con la idea de un personaje de rana. Nuestros primeros intentos en ChatGPT produjeron imágenes con un "estilo de ChatGPT" muy distintivo, una sensación de amarillo/naranja pesado y sepia. Este no era el personaje de marca amigable y accesible que queríamos.

Nuestra dirección creativa fue clara: el personaje tenía que ser un animal de peluche de pana amigable y accesible. El desafío principal sería mantener la textura de pana consistente en cada toma.

Probamos una indicación simple como "rana amigable con textura de pana" en una docena de herramientas de IA, incluyendo Midjourney, Runway, Flux y Nanobanana. Las 50+ versiones iniciales no eran perfectas. Tomamos los mejores elementos de ese primer lote. Los ojos de uno, la textura de otro, y los usamos como nuevas imágenes de referencia para iterar nuevamente.

Finalmente, llegamos a nuestro protagonista: Kick.

Creamos una hoja de personaje completa con vistas frontales, traseras y laterales para asegurar consistencia.

Paso 2

Consejo profesional: prueba tu personaje en video temprano. Un personaje puede verse perfecto en una imagen estática, pero las texturas pueden desvanecerse o los miembros pueden comportarse extrañamente una vez que intentas agregar movimiento. Nos aseguramos de que Kick funcionara en videos de prueba antes de encerrarlo.

Con nuestro personaje listo, necesitábamos una escena. Usamos Pinterest para encontrar referencias de estilo para una "sala de estar cálida y acogedora" donde los colores complementarían a nuestra rana verde.

Encontramos una imagen que nos encantó y la metimos en Midjourney, usando su función /describe para analizar los elementos clave. Esto nos dio una gran indicación inicial. Los primeros renders tenían la paleta de colores correcta, nos encantaba el sofá de terracota y el sofá blanco-gris, pero las escenas se sentían demasiado caóticas.

Nuestro comentario fue "eliminar un par de elementos e intercambiar los colores". Mejoramos la indicación para ser más específica: "interior de habitación más minimalista con un sofá de terracota cálido". Esto nos dio nuestra escena principal. Luego tomamos esta escena final en Nanobanana para generar múltiples ángulos que pudimos usar más tarde.

Paso 3

Aquí es donde ocurre la magia y donde el riesgo de inconsistencia es mayor. Necesitábamos colocar a Kick en la sala de estar. El desafío fue que muchas herramientas cambiarían la textura de la rana, alterarían el sofá, o agregarían aleatoriamente una almohada adicional.

Durante este proceso, se lanzó una nueva herramienta de IA llamada Nanobanana, y fue un cambio de juego completo. Nos ayudó a llegar mucho más cerca de nuestro producto final, mucho más rápido.

Para obtener lo máximo, desarrollamos un flujo de trabajo de "ingeniería de indicaciones":

Creamos nuestro propio Gem personalizado (vía Google Gemini) y le proporcionamos toda la documentación que pudimos encontrar sobre cómo funciona Nanobanana y cómo escribir las mejores indicaciones para él.
Dimos a este Gem personalizado nuestra imagen de referencia de Kick y nuestra imagen de referencia de la escena.
Luego simplemente describimos lo que queríamos: "Kick en el sofá sosteniendo una tableta".
Nuestro GPT personalizado luego escribía automáticamente la indicación optimizada perfectamente para usar en Nanobanana.

Paso 4

Animar los stills fue el próximo obstáculo. La IA tiene su "propia mente", y no siempre puedes obtener lo que quieres en un solo intento.

Por ejemplo, nuestro primera escena requería que Kick cayera del aire al sofá. Intentar generar esto en una toma ("rana cayendo en un sofá") era imposible. Los resultados fueron un desastre.

Tuvimos que pensar fuera de la caja y dividir la acción en capas:

Primero, generamos a Kick saltando sobre un fondo blanco simple.
Luego, generamos una toma de Kick aterrizando en el sofá.
En postproducción, enmascaramos la rana de la primera toma y compusimos los videos para crear la escena final sin problemas.

Este proceso requirió una iteración masiva. Creamos aproximadamente 800 renderizaciones de video para obtener los momentos exactos que necesitábamos.

Consejo profesional: analiza cada renderización. Una generación de video de 5 segundos podría ser 90% inutilizable, pero podría contener un segundo perfecto de animación. El comercial final de televisión está construido a partir de estos pequeños momentos perfectos.

Finalmente, aumentamos cada clip de video. La mayoría de las herramientas de video de IA producen 720p o 1080p. Usamos Topaz Labs para aumentar todo a 4K para calidad de transmisión.

El producto final

El resultado fue una campaña completa donde todo fue generado por IA. Los visuales, la voz en off, el diseño de sonido y la música. Los únicos elementos "hechos a mano" fueron la edición de video final (montar los clips) y la grabación de pantalla mostrada en el iPad.

Nuestros 4 aprendizajes clave del proceso

Sigue siendo un proceso de producción, solo acelerado. La IA no reemplaza el flujo de trabajo de producción tradicional (guión, storyboard, retroalimentación). Solo hace que los ciclos de iteración sean increíblemente rápidos. Esto significa que necesitas más momentos de retroalimentación y consultas más cercanas, no menos.
La flexibilidad es todo. Debes estar dispuesto a adaptarte. Si la IA tiene dificultades para crear una toma de tu storyboard, es posible que tengas que volver al paso de creación de escenas e intentar un ángulo nuevo. O, la IA podría generar un "accidente feliz" inesperado que sea mejor que tu idea original.
Mantente curioso y actualizado. El panorama de la IA cambia diariamente. Nanobanana salió durante este proyecto y nos salvó. Si no hubiéramos estado probando nuevas herramientas, todavía estaríamos trabajando en ello.
El caos de herramientas es un desafío real. Utilizamos más de 10 herramientas diferentes. Esto se volvió increíblemente confuso, especialmente cuando un colega tenía que tomar el proyecto de otro. ¿Dónde están los archivos? ¿Qué herramienta hizo qué asset?

El futuro: un flujo de trabajo unificado

Ese último problema, el caos de herramientas, es nuestro enfoque principal ahora. Hemos comenzado a usar Weavy AI, una plataforma basada en nodos que resuelve esto.

En lugar de saltar entre 10 aplicaciones, Weavy nos permite construir un diagrama de flujo visual. Podemos conectar una indicación e imágenes de referencia a un nodo "Nanobanana", que luego alimenta su imagen de salida en un nodo "Seedance" para video, que luego canaliza el video en un nodo "Topaz" para aumentar.

this is where the fun begins.

Ready to design interactions that actually stick with your brand? Let's talk