Buenas, esto es BIMPRAXIS, el podcast donde el
BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro
desde el enfoque de la arquitectura, ingeniería y
construcción.
¡Empezamos!
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio
de BIMPRAXIS.
Hoy os traemos el fin definitivo de la
pesadilla de la edición de imágenes por inteligencia
artificial, o cómo pasar de cruzar los dedos
a tener un bisturí de precisión.
Hola, ¿qué tal?
Sí, este es un tema que nos toca
de cierca a cualquiera que haya tocado una
herramienta de IA alguna vez.
Totalmente, porque, a ver, hay una situación recurrente
en la generación de imágenes que es universalmente
frustrante.
Imaginemos tener la imagen perfecta en la pantalla.
La típica que sale a la primera y
dices ¡guau!
Eso es, la luz de la ventana cae
justo sobre una mesa de roble, la atmósfera
es impecable, o sea, la composición parece sacada
de una galería de arte.
Ajá.
Pero hay un detalle, un vaso de plástico
horrendo en una esquina que arruina toda la
escena.
¿Y ya sabes lo que pasa después?
Claro, le pides a la IA que quite
sólo ese vaso y, de repente, el desastre.
La luz cambia, la mesa desaparece, el estilo
se esfuma y, bueno, esa magia inicial se
pierde para siempre.
Es la gran pesadilla, sí.
Es el problema endémico de lo que llamamos
la caja negra en la inteligencia artificial.
A ver, explícanos un poco eso de la
caja negra.
Pues, históricamente, el paradigma ha consistido en lanzar
una instrucción, cruzar los dedos y aceptar lo
que el modelo decida escupir.
Tal cual.
Si buscas modificar algo a posteriori, la arquitectura
de la mayoría de los modelos no está
diseñada para editar en el sentido tradicional.
Ya, no es como usar el tampón de
clonar en un programa clásico.
Exacto, lo que hacen es volver a generar
la imagen desde cero.
Utilizan la nueva instrucción.
La nueva instrucción como semilla principal y es
por eso que la consistencia matemática y visual
de la primera imagen se desintegra.
Vale, vamos a desgranar esto.
Porque el objetivo de este análisis a fondo
es precisamente explorar una solución que elimina de
un plumazo esa dinámica de cruzar los dedos.
Y es una solución brillante, la verdad.
Vamos a sumergirnos en un tutorial fascinante del
canal de YouTube de Hong Seo.
Este creador ha documentado una técnica que otorga
un control absoluto, pero absoluto y milimétrico sobre
las imágenes.
Utilizando los modelos de Google, ¿verdad?
Sí, específicamente usando los modelos Gemini, Nano, Banana
2 y su hermano mayor, el Nano, Banana
Pro.
Hmm, interesante.
La promesa aquí es pasar de esa frustración
a una precisión quirúrgica, algo vital para la
audiencia que nos escucha, ya sean profesionales de
la creación de contenido o simplemente mentes curiosas.
Es que el salto cualitativo que plantea esta
técnica reside en cómo reconfigura la relación entre
el ser humano y el modelo generativo.
Cambia las reglas del juego.
Para evitarse a dar órdenes vagas desde la
barrera y esperar que la máquina te entienda,
este flujo de trabajo permite acceder directamente a
los engranajes de la imagen.
A las tripas, digamos.
Exacto.
Controlas cada variable de forma explícita.
Convierte lo que era un proceso aleatorio en
un ejercicio de ingeniería inversa visual.
Y todo este proceso de ingeniería inversa comienza
con lo que el creador del vídeo denomina
extraer el ADN de la imagen.
Me encanta ese concepto.
Es genial.
Quien vea el tutorial notará que el ADN
de la imagen es el mismo que el
de la imagen.
Así que no se empieza usando una herramienta
mágica de selección, ni un pincel.
El primer paso es subir la imagen a
Gemini y utilizar un comando de texto súper
específico.
¿Cuál es el prompt, exactamente?
Le dice, extrae toda la información de esta
imagen y conviértela en JSON estructurado.
Guau.
Vale.
Claro.
La audiencia más técnica sabe qué es un
archivo JSON y cómo estructura los datos, pero
aplicarlo a un puñado de píxeles es desconcertante.
¿Qué ocurre en la red neuronal cuando le
pides que convierta una imagen?
Pues lo que ocurre es un proceso de
traducción de, digamos, espacio latente a espacio semántico.
Vale.
Tradúceme eso a mí.
A ver.
Gemini es un modelo multimodal nativo.
Esto significa que no procesa la imagen simplemente
identificando contornos.
O sea, no ve solo manchas de color.
No.
Comprende la escena.
Así que, al pedirle que estructure esa comprensión
en JSON, la IA desglosa la imagen en
categorías lógicas.
Para métricas.
¿Y qué incluye exactamente?
Pues traduce el estilo general, la paleta de
colores, la iluminación, la disposición espacial y las
propiedades de cada objeto a pares de claves
y valores.
Madre mía.
Literalmente coge una matriz de millones de píxeles
y la reduce a su código fuente semántico.
Describe qué hay, cómo está iluminado y en
qué coordenadas exactas del espacio imaginario se encuentra.
O sea, es como si tuviéramos un bizcocho
ya horneado.
Sí.
Piensa que, en la edición tradicional de IA,
intentar cambiar algo sería como intentar inyectar sabor
a chocolate en un bizcocho de vainilla que
ya está hecho.
El resultado es un desastre estructural.
Claro, se te rompe todo.
Pero al extraer este JSON, lo que obtenemos
no es el bizcocho, sino el acceso directo
a la receta exacta, con las proporciones precisas
de cada ingrediente.
La analogía funciona perfecto, porque subraya la diferencia
entre manipular el resultado final y manipular el
origen.
Eso es.
Teniendo la receta codificada, o sea, el cómo
se construyó esa realidad visual, pues se vuelve
posible alterar una variable aislada sin detonar una
reacción en cadena.
Sin que explote la cocina.
Exacto.
Sin alterar la estructura molecular del resto de
los ingredientes.
Pero espera, aquí hay algo que requiere más
profundidad.
Entiendo la teoría, pero ¿cómo se ve esto
en la práctica?
A ver.
Imagina que en esa receta JSON busco un
mueble.
Pongamos una silla negra.
Y cambio la propiedad de texto de negro
a rojo.
Le digo a la IA que modifique el
ingrediente.
Ajá, le cambias la variable del color.
Sí.
Pero ¿cómo gestiona la IA la física de
la luz ante ese cambio?
Porque si yo cojo un bote de pintura
roja en un software tradicional como Photoshop y
relleno una silla negra, el resultado es plano.
Claro, parece una pegatina.
Copalmente.
Se pierden las sombras sutiles, los reflejos del
entorno se ven artificiales, la iluminación global se
rompe.
¿Cómo evita la IA que ese simple cambio
de texto no se traduzca en un parche
visual barato?
Esa es precisamente la magia de no estar
editando píxeles, sino conceptos.
Lo fascinante aquí es que Gemini no aplica
un filtro de color.
Ah, vale.
Al recibir el JSON modificado, el modelo utiliza
esos datos estructurados como la verdad absoluta para
un nuevo renderizado generativo.
Entiendes semánticamente qué es una silla.
Qué implica que sea roja y, crucialmente, cómo
un material rojo interactúa con la iluminación global.
Porque la iluminación también está en ese JSON.
Exacto, todo está ahí.
Entonces recalcula el rebote de la luz, las
sombras proyectadas y los reflejos basándose en las
leyes de la física óptica que ha aprendido
durante su entrenamiento.
O sea que la integración es perfecta.
Absolutamente.
Elimina la caja negra, pero mantiene el motor
de renderizado avanzado intacto.
Pone el control algorítmico directamente en manos de
quien edita.
Y aquí es donde se pone realmente interesante.
Porque una cosa es alterar el color de
un objeto físico y tangible que al final
no deja de ser un cambio de variable
sencilla.
Sí, es cambiar una palabra por otra.
Pero otra muy distinta es adentrarse en lo
abstracto.
Hablamos de capturar el alma de una fotografía,
lo que en el vídeo se demuestra como
la técnica de robar estilos.
El concepto de extraer la esencia artística de
una imagen.
Efectivamente.
El nivel de abstracción sube considerablemente aquí.
En el tutorial, el creador toma un retrato
con un estilo fotográfico muy particular, muy cinematográfico
y atmosférico.
Y en vez de pedirle a la IA
que describa qué ropa lleva el sujeto o
qué muebles hay, la Instrucciones describe las técnicas
fotográficas de esta imagen en formato JSON.
Un enfoque totalmente distinto.
Y el resultado no es un simple foto
oscura y dramática.
En absoluto.
Gemini parametriza el arte de la fotografía.
¿A qué nivel de detalle llega?
Pues el código JSON que devuelve descompone el
estema de iluminación.
Indica si hay luz clave, luz de relleno
o recortes lumínicos traseros.
¡Guau!
Especifica el rango dinámico, la temperatura de color,
la gradación tonal.
Incluso simula las propiedades del equipo óptico que
se habría utilizado en el mundo real.
¿Te saca hasta la lente?
Sí.
Define la distancia focal, la profundidad de campo
y el nivel de aberración cromática.
Es, a todos los efectos, la disección de
cada decisión técnica y artística que un director
de fotografía tomaría en un plató.
Que esa técnica fotográfica se convierte en texto
puro, en datos que guardas en el portapapeles,
Elvidia muestra el siguiente paso lógico.
¿Qué hace con todo eso?
Pues sube dos o tres fotografías ordinarias desde
distintos ángulos para que la IA registre los
rasgos faciales de un sujeto concreto.
Vale.
¿Entrena al modelo con una cara?
Exacto.
Y a continuación, lanza la Instrucciones.
Genera una foto de esta persona basada en
el siguiente archivo JSON y pega todo ese
desglose de técnicas cinematográficas.
¡Madre mía!
El resultado es la recreación exacta de ese
sujeto bajo esa misma iluminación compleja, la misma
óptica y el mismo etalonaje de color.
O sea, ha logrado separar completamente la técnica
fotográfica de los objetos físicos.
Convierte el estilo en un activo portátil que
puedes aplicar a cualquier sujeto nuevo.
Es alucinante.
Y manteniendo una fidelidad visual asombrosa.
Todo gracias a esa coherencia del espacio latente.
Pero pongámonos en el caso de querer llevar
esa edición un paso más allá.
Imaginemos que, además de aplicar ese estilo al
rostro, se quiere cambiar trásticamente el vestuario.
Vale.
Añadir, por ejemplo, un traje formal de tres
piezas y una camisa roja donde antes sólo
había una camiseta básica.
Ahí la cosa se complica.
Claro.
Ahí veo un obstáculo enorme.
Si alterar un color era cambiar una palabra,
añadir un traje completo implica modificar el estilo.
Modificar la geometría del cuerpo, las arrugas de
la tela, el volumen que ocupa en el
espacio.
Totalmente.
Modificar el JSON manualmente para inyectar todas esas
nuevas coordenadas espaciales parece una tarea imposible.
O sea, si no tienes conocimientos avanzados de
programación, no es un riesgo enorme de corromper
la imagen.
Es un riesgo altísimo, sí.
Si se hiciera de forma manual.
Pero la solución que plantea la fuente es
de una elegancia técnica brillante.
¿Cómo lo resuelve?
Consiste en utilizar a la propia IA como
editora de su propio software.
¡Ostras!
Sí.
El usuario no necesita tocar ni un solo
corchete del archivo JSON.
El proceso pasa por instruir a Gemini con
lenguaje natural diciendo, añade un traje y una
camisa roja a esta persona en el prompt
JSON, y adjuntas el código original debajo.
O sea, ¿delegamos en el modelo la tarea
de reescribir su propia receta para acomodar esa
nueva geometría?
Exactamente.
La red neuronal analiza el JSON subyacente, comprende
la petición abstracta de añadir un traje, y
calcula todas las nuevas variables espaciales y semánticas.
Lo integra todo él solo.
Todo.
Sin romper el esquema general.
Reescribe las líneas de código pertinentes y genera
un nuevo JSON actualizado.
Y con eso ya renderizas.
Eso es.
Se utiliza ese nuevo código para generar la
imagen y en cuestión de segundos el sujeto
viste un traje perfectamente integrado.
La consistencia del rostro, el fondo y ese
estilo lumínico tan complejo permanecen inmutables.
Es magia pura.
Si conectamos esto con el panorama general, lo
que estamos observando es una disrupción profunda en
la economía de la creación visual.
Totalmente.
El nivel de control direccional que antes exigía
alquilar un estudio, configurar iluminación física, contratar estilistas
y pasar horas en postproducción, ahora se ha
comprimido en un flujo de operaciones estructuradas mediante
texto.
Es una democratización sin precedentes.
El impacto en los tiempos de producción y
en la accesibilidad de sistemas, es innegable.
Sin embargo, hay un punto en el que
interactuar exclusivamente a través de bloques de código
estructurado, bueno, resulta poco intuitivo para disciplinas eminentemente
visuales.
Es verdad.
Por mucho que la IA lo gestione, ver
tanto código asusta un poco.
Y aquí es donde la técnica del vídeo
da un giro interesante, porque demuestra que todo
este andamiaje de JSON se puede controlar a
través de una interfaz puramente interactiva.
Escribir código no es la única vía.
Claro.
La transición de la manipulación textual a la
interacción espacial es clave para la usabilidad.
El tutorial muestra cómo Gemini integra herramientas visuales
que actúan como un intermediario o un frontend
muy amigable.
Ocultando la complejidad del JSON que corre por
debajo.
Exacto.
Es un proceso visual muy directo.
Se hace clic sobre la imagen generada, se
selecciona una herramienta de pincel integrada y se
dibuja, literalmente, una flecha que apunta a un
sofá.
Ajá, súper intuitivo.
Sí.
En la misma interfaz aparece una herramienta de
texto y se escribe encima de la imagen,
vuelve el sofá rojo.
Acto seguido, dibujas otra flecha apuntando a una
silla vacía y escribes, pon un oso de
peluche en la silla.
Como dar instrucciones en una pizarra.
Exactamente.
No hay que bucear en líneas de código.
El gesto de apuntar y escribir traduce la
intención del usuario a las coordenadas espaciales que
la IA necesita.
Y esa traducción funciona de manera tan fluida
porque el modelo mantiene una comprensión segura.
¿Tiene algún tipo de semántica constante de la
escena?
Claro, sabe dónde está cada cosa.
Cuando se dibuja la flecha, el sistema localiza
ese vector en su mapa Json, interno, y
aplica la modificación solicitada.
Ahora bien, el tutorial sí que destaca un
efecto secundario temporal de este método.
Interactivo.
¿Cuál es?
Las propias palabras escritas sobre la imagen.
A veces, al procesar este tipo de prompts
visuales, la IA puede dejar un residuo de
ese texto instructivo rojo, impreso en el resultado
final.
Ah, se cree que el texto rojo es
parte de la foto.
Exacto.
Lo trata por error como parte del contenido
gráfico.
Lo cual arruinaría la imagen, claro.
Si no fuera porque la solución es casi
absurdamente sencilla.
Basta con lanzar otra petición en texto indicando,
elimina el texto rojo.
Y la IA limpia la imagen al momento.
Empiende el contexto del error perfectamente.
Sí.
Además, el entorno cuenta con un historial de
deshacer y rehacer, lo que elimina el miedo
a experimentar.
Si un cambio estropea la composición, se vuelve
al estado anterior del JSON con un solo
clic.
Eso da muchísima tranquilidad.
Pero llegados a este punto, habiendo dominado la
alteración de objetos y estilos dentro del encuadre
original, el análisis entra en el terreno de
las capacidades del modelo superior, el Nano Banana
Pro.
Y me refiero a la manipulación del propio
encuadre, la relación de aspecto.
El cambio de proporciones es una de las
demostraciones técnicas más robustas del tutorial.
Se empieza con un retrato en formato panorámico
estándar, el clásico 16 novenos.
Sí.
Y al introducir el comando aspect -ratio 916,
la IA reconfigura instantáneamente el lienzo para adaptarlo
a un formato vertical de móvil.
Pasa por el formato cuadrado, llega incluso a
un formato ultra gran angular de 21 novenos.
Y esto es solo en la versión Pro,
¿no?
Bueno, cabe mencionar que, aunque se muestra en
el entorno Pro, la fuente original ya documentó
en videos anteriores que los usuarios de versiones
gratuitas también disponen de metodologías para lograr redimensionados
similares.
Ah, estupendo.
Pero la verdadera innovación aquí no es recortar
la imagen, sino el proceso de outpainting, la
expansión del lienzo.
Ese concepto merece que nos detengamos un momento.
El video muestra una fotografía de medio cuerpo
y el usuario introduce la instrucción, genera una
imagen de cuerpo entero de esta persona.
Llevando vaqueros y sosteniendo un maletín en proporción
9 -16.
Y fíjate que el modelo no estira los
píxeles hacia abajo.
No, no.
Inventa una realidad que nunca estuvo en el
archivo original.
Es un proceso de alucinación controlada sumamente complejo.
Para ejecutar esa expansión, la IA debe extrapolar
el contexto a partir de los datos existentes,
analiza la anatomía visible y deduce la postura
de las piernas.
O sea, calcula dónde estarían.
Claro.
Evalúa la caída de la luz en la
mitad superior y calcula cómo deberían comportarse las
sombras sobre unos vaqueros en la mitad inferior
inexistente.
Es que es increíble.
Introduce el maletín en la mano respetando la
perspectiva y genera la textura del suelo para
anclar al sujeto en el espacio.
No está ampliando un lienzo, está simulando el
resto del mundo físico basándose en las restricciones
del JSON original.
Pero a ver, esta simulación plantea un problema
físico ineludible.
Cuando fuerzas a una red neuronal a inventar
tanta información, nueva desde cero, o cuando cambias
ropa y objetos varias veces, la integridad de
los píxeles empieza a desmoronarse.
Sí, empiezan a aparecer cosas raras.
Suelen aparecer artefactos visuales, pérdida de nitidez en
los bordes, zonas borrosas, y ese clásico ruido
digital que te grita, esto es una imagen
generada por IA forzada al límite.
¿Cómo maneja el ecosistema de Gemini esta degradación
de la calidad?
Aborda la degradación a través de un proceso
de reconstrucción, que la fuente denomina Axe Scale,
o mejora de calidad.
Y lo hace sin depender de software de
terceros, que es lo importante.
Todo dentro de Gemini.
Todo.
Cuando la imagen evidencia pérdida de nitidez tras
expansiones agresivas, el usuario simplemente introduce el comando
Escala esta imagen a 4K.
Pero, ¿cómo funciona exactamente ese escalado?
Porque si simplemente multiplicamos los píxeles, tendríamos una
imagen más grande, pero igual de borrosa.
Exacto.
No es un escalado matemático tradicional.
Es un escalado generativo basado en modelos de
difusión.
Al pedir el salto a 4K, la IA
no estira la imagen.
¿Qué hace entonces?
Inyecta un nivel de ruido de alta frecuencia
en los píxeles degradados y utiliza su comprensión
semántica para resolver ese ruido en detalle puro.
O sea, ¿redibuja los detalles?
Eso es.
Sabe que una zona borrosa corresponde a la
tela de unos vaqueros.
Así que el proceso alucina la trama exacta
de ese tejido a resolución 4K.
Reconstruye poros en la piel, texturas en la
madera, nitidez en contornos, todo basándose en el
contexto global de la esquena.
¿Y sin tocar deslizadores de enfoque ni nada?
Nada.
Es una regeneración algorítmica completa.
Ven, recapitulemos el proceso un momento.
Se ha extraído el cóligo base, modificado el
color de los muebles, asimilado un estilo fotográfico,
cambiado el vestuario reescribiendo el código, operado visualmente
dibujando flechas, expandido el lienzo deduciendo las piernas
y el suelo, y finalmente escalado todo a
4K resolviendo cualquier imperfección.
Dicho así, suena a ciencia ficción.
Totalmente.
La imagen parece lista para producción, pero el
tutorial revera un último obstáculo, el enemigo número
uno de cualquier flujo de trabajo visual, las
marcas de agua incrustadas por la propia herramienta.
Sí, un elemento restrictivo que muchas plataformas implementan
por defecto para rastrear de dónde viene el
contenido.
Y la imagen final de esta demostración efectivamente
carga con una de estas herramientas.
Y es precisamente en este punto donde la
comunidad de desarrolladores brilla, ofreciendo una solución que
no requiere exportar el trabajo a programas de
retoque costosos ni andar clonando a mano.
¿Qué solución proponen?
El propio creador del tutorial proporciona acceso a
una herramienta gratuita, enlazada en la descripción, diseñada
específicamente para eliminar estas marcas de agua.
Lo destacable es que esta utilidad fue construida
previamente por él mismo utilizando Google AI Studio.
Qué inteligente.
El flujo de trabajo para eliminar la marca,
además, es extremadamente minimalista.
Subes el renderizado final a esta herramienta dedicada,
usas una brocha digital para enmascarar la zona
del logotipo y ejecutas la acción, eliminar lo
seleccionado.
Así de fácil.
Sí, la herramienta analiza los píxeles circundantes y
genera un relleno contextual perfecto.
Te descargas un archivo prístino.
Esto plantea una pregunta importante sobre la actual
autonomía del ecosistema técnico.
A ver.
Tradicionalmente, superar barreras como la eliminación de marcas
de agua o la edición compleja exigía dominar
plataformas basadas en capas, máscaras de recorte, modos
de fusión… Horas de tutoriales, vamos.
Claro.
Hoy, esos problemas se resuelven mediante instrucciones en
lenguaje natural y con microherramientas que los propios
creadores están ensamblando utilizando modelos de lenguaje.
La inteligencia artificial no solo genera el arte.
Está facilitando la creación de los propios andamios
técnicos necesarios para refinarlo.
Entonces, ¿qué significa todo esto a nivel fundamental?
Si contemplamos el arco completo de estas técnicas,
queda claro que se ha producido una transición
radical.
Hemos abandonado el enfoque de la máquina tragaperras
donde metías palabras esperando un golpe de suerte
estético.
Totalmente.
Y hemos adoptado el uso de un bisturí
de precisión paramétrica.
Comprender que cualquier imagen puede reducirse a un
archivo JSON manipulable permite desde alterar objetos individuales,
manteniendo la luz, hasta aplicar etalonajes cinematográficos a
sujetos nuevos, expandir universos y perfeccionar la resolución
al milímetro.
Todo gobernado dentro de Gemini Nano, Banana 2
y Pro.
Sí.
Es que la precisión técnica ha dejado de
ser una limitación para la IA generativa y
se ha convertido en su principal motor.
Y esto conduce a una reflexión profunda.
Si es posible extraer conceptos tan abstractos como
la atmósfera o la técnica fotográfica, convertirlos en
datos y reescribirlos, el concepto clásico de la
fotografía como captura irrefutable de la realidad entra
en crisis.
Es un cambio filosófico, casi.
Históricamente, la imagen congelaba un instante inmutable en
el tiempo.
Sin embargo, cuando la realidad visual de una
escena puede alterarse drásticamente cambiando la palabra camiseta
por traje en una línea de código, sin
dejar rastro de manipulación, ya no te puedes
fiar.
la imagen abandona su condición de documento estático.
Se transforma en un borrador infinito.
Un estado líquido donde la realidad representada es
perpetuamente maleable.
Borrador infinito.
Wow.
Es un concepto fascinante que altera por completo
la percepción de lo que consideramos una imagen
terminada.
Saber que cualquier renderizado es en el fondo
una matriz de datos susceptible de ser reescrita
desde sus cimientos desafía nuestra concepción del arte
digital.
Muchísimas gracias por acompañarnos en esta inmersión a
fondo.
Es un momento ideal para que la audiencia
busque imágenes propias, intente extraer sus datos y
ponga a prueba estas técnicas.
Quien se anime se dará cuenta rápidamente de
que el control absoluto sobre el lienzo digital
ya no es una promesa futura, sino una
realidad accesible hoy mismo.
Exacto.
Antes de despedirnos hasta el próximo programa, os
informamos de que las voces que oyes han
sido generadas por la IA de Notebook LM
y que dirigiendo al podcast se encuentra Julio
Pablo Vázquez, un humano que te envía saludos.
En caso de error, probablemente sean errores humanos.
¡Nos escuchamos!
El episodio de hoy.
Muchas gracias por tu atención.
Esto es BIM Praxis.
Nos escuchamos en el próximo episodio.