E082_Control milimétrico de imágenes IA con JSON y Nano Banana

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:39

de BIMPRAXIS.

0:40

Hoy os traemos el fin definitivo de la

0:42

pesadilla de la edición de imágenes por inteligencia

0:45

artificial, o cómo pasar de cruzar los dedos

0:48

a tener un bisturí de precisión.

0:50

Hola, ¿qué tal?

0:50

Sí, este es un tema que nos toca

0:53

de cierca a cualquiera que haya tocado una

0:55

herramienta de IA alguna vez.

0:57

Totalmente, porque, a ver, hay una situación recurrente

1:00

en la generación de imágenes que es universalmente

1:03

frustrante.

1:04

Imaginemos tener la imagen perfecta en la pantalla.

1:06

La típica que sale a la primera y

1:08

dices ¡guau!

1:09

Eso es, la luz de la ventana cae

1:11

justo sobre una mesa de roble, la atmósfera

1:14

es impecable, o sea, la composición parece sacada

1:16

de una galería de arte.

1:18

Ajá.

1:18

Pero hay un detalle, un vaso de plástico

1:21

horrendo en una esquina que arruina toda la

1:23

escena.

1:24

¿Y ya sabes lo que pasa después?

1:25

Claro, le pides a la IA que quite

1:27

sólo ese vaso y, de repente, el desastre.

1:30

La luz cambia, la mesa desaparece, el estilo

1:34

se esfuma y, bueno, esa magia inicial se

1:37

pierde para siempre.

1:38

Es la gran pesadilla, sí.

1:40

Es el problema endémico de lo que llamamos

1:43

la caja negra en la inteligencia artificial.

1:44

A ver, explícanos un poco eso de la

1:48

caja negra.

1:48

Pues, históricamente, el paradigma ha consistido en lanzar

1:52

una instrucción, cruzar los dedos y aceptar lo

1:55

que el modelo decida escupir.

1:56

Tal cual.

1:57

Si buscas modificar algo a posteriori, la arquitectura

2:01

de la mayoría de los modelos no está

2:03

diseñada para editar en el sentido tradicional.

2:05

Ya, no es como usar el tampón de

2:07

clonar en un programa clásico.

2:09

Exacto, lo que hacen es volver a generar

2:12

la imagen desde cero.

2:13

Utilizan la nueva instrucción.

2:14

La nueva instrucción como semilla principal y es

2:17

por eso que la consistencia matemática y visual

2:19

de la primera imagen se desintegra.

2:21

Vale, vamos a desgranar esto.

2:23

Porque el objetivo de este análisis a fondo

2:25

es precisamente explorar una solución que elimina de

2:29

un plumazo esa dinámica de cruzar los dedos.

2:31

Y es una solución brillante, la verdad.

2:33

Vamos a sumergirnos en un tutorial fascinante del

2:36

canal de YouTube de Hong Seo.

2:38

Este creador ha documentado una técnica que otorga

2:40

un control absoluto, pero absoluto y milimétrico sobre

2:44

las imágenes.

2:45

Utilizando los modelos de Google, ¿verdad?

2:47

Sí, específicamente usando los modelos Gemini, Nano, Banana

2:51

2 y su hermano mayor, el Nano, Banana

2:53

Pro.

2:54

Hmm, interesante.

2:55

La promesa aquí es pasar de esa frustración

2:58

a una precisión quirúrgica, algo vital para la

3:01

audiencia que nos escucha, ya sean profesionales de

3:03

la creación de contenido o simplemente mentes curiosas.

3:06

Es que el salto cualitativo que plantea esta

3:08

técnica reside en cómo reconfigura la relación entre

3:12

el ser humano y el modelo generativo.

3:13

Cambia las reglas del juego.

3:14

Para evitarse a dar órdenes vagas desde la

3:17

barrera y esperar que la máquina te entienda,

3:19

este flujo de trabajo permite acceder directamente a

3:23

los engranajes de la imagen.

3:24

A las tripas, digamos.

3:26

Exacto.

3:26

Controlas cada variable de forma explícita.

3:30

Convierte lo que era un proceso aleatorio en

3:32

un ejercicio de ingeniería inversa visual.

3:34

Y todo este proceso de ingeniería inversa comienza

3:36

con lo que el creador del vídeo denomina

3:38

extraer el ADN de la imagen.

3:40

Me encanta ese concepto.

3:42

Es genial.

3:42

Quien vea el tutorial notará que el ADN

3:44

de la imagen es el mismo que el

3:44

de la imagen.

3:44

Así que no se empieza usando una herramienta

3:46

mágica de selección, ni un pincel.

3:48

El primer paso es subir la imagen a

3:50

Gemini y utilizar un comando de texto súper

3:52

específico.

3:53

¿Cuál es el prompt, exactamente?

3:55

Le dice, extrae toda la información de esta

3:58

imagen y conviértela en JSON estructurado.

4:01

Guau.

4:01

Vale.

4:02

Claro.

4:03

La audiencia más técnica sabe qué es un

4:05

archivo JSON y cómo estructura los datos, pero

4:08

aplicarlo a un puñado de píxeles es desconcertante.

4:11

¿Qué ocurre en la red neuronal cuando le

4:13

pides que convierta una imagen?

4:16

Pues lo que ocurre es un proceso de

4:18

traducción de, digamos, espacio latente a espacio semántico.

4:23

Vale.

4:24

Tradúceme eso a mí.

4:25

A ver.

4:26

Gemini es un modelo multimodal nativo.

4:29

Esto significa que no procesa la imagen simplemente

4:31

identificando contornos.

4:33

O sea, no ve solo manchas de color.

4:35

No.

4:36

Comprende la escena.

4:37

Así que, al pedirle que estructure esa comprensión

4:40

en JSON, la IA desglosa la imagen en

4:43

categorías lógicas.

4:44

Para métricas.

4:45

¿Y qué incluye exactamente?

4:47

Pues traduce el estilo general, la paleta de

4:49

colores, la iluminación, la disposición espacial y las

4:53

propiedades de cada objeto a pares de claves

4:56

y valores.

4:57

Madre mía.

4:58

Literalmente coge una matriz de millones de píxeles

5:01

y la reduce a su código fuente semántico.

5:04

Describe qué hay, cómo está iluminado y en

5:07

qué coordenadas exactas del espacio imaginario se encuentra.

5:10

O sea, es como si tuviéramos un bizcocho

5:12

ya horneado.

5:15

Sí.

5:15

Piensa que, en la edición tradicional de IA,

5:18

intentar cambiar algo sería como intentar inyectar sabor

5:21

a chocolate en un bizcocho de vainilla que

5:23

ya está hecho.

5:23

El resultado es un desastre estructural.

5:26

Claro, se te rompe todo.

5:28

Pero al extraer este JSON, lo que obtenemos

5:30

no es el bizcocho, sino el acceso directo

5:33

a la receta exacta, con las proporciones precisas

5:35

de cada ingrediente.

5:36

La analogía funciona perfecto, porque subraya la diferencia

5:40

entre manipular el resultado final y manipular el

5:43

origen.

5:43

Eso es.

5:44

Teniendo la receta codificada, o sea, el cómo

5:47

se construyó esa realidad visual, pues se vuelve

5:51

posible alterar una variable aislada sin detonar una

5:54

reacción en cadena.

5:55

Sin que explote la cocina.

5:57

Exacto.

5:58

Sin alterar la estructura molecular del resto de

6:00

los ingredientes.

6:01

Pero espera, aquí hay algo que requiere más

6:03

profundidad.

6:04

Entiendo la teoría, pero ¿cómo se ve esto

6:06

en la práctica?

6:07

A ver.

6:08

Imagina que en esa receta JSON busco un

6:10

mueble.

6:11

Pongamos una silla negra.

6:13

Y cambio la propiedad de texto de negro

6:15

a rojo.

6:16

Le digo a la IA que modifique el

6:18

ingrediente.

6:19

Ajá, le cambias la variable del color.

6:21

Sí.

6:22

Pero ¿cómo gestiona la IA la física de

6:24

la luz ante ese cambio?

6:26

Porque si yo cojo un bote de pintura

6:27

roja en un software tradicional como Photoshop y

6:30

relleno una silla negra, el resultado es plano.

6:33

Claro, parece una pegatina.

6:34

Copalmente.

6:35

Se pierden las sombras sutiles, los reflejos del

6:38

entorno se ven artificiales, la iluminación global se

6:42

rompe.

6:42

¿Cómo evita la IA que ese simple cambio

6:45

de texto no se traduzca en un parche

6:47

visual barato?

6:49

Esa es precisamente la magia de no estar

6:52

editando píxeles, sino conceptos.

6:54

Lo fascinante aquí es que Gemini no aplica

6:58

un filtro de color.

6:59

Ah, vale.

7:00

Al recibir el JSON modificado, el modelo utiliza

7:03

esos datos estructurados como la verdad absoluta para

7:07

un nuevo renderizado generativo.

7:09

Entiendes semánticamente qué es una silla.

7:11

Qué implica que sea roja y, crucialmente, cómo

7:15

un material rojo interactúa con la iluminación global.

7:18

Porque la iluminación también está en ese JSON.

7:20

Exacto, todo está ahí.

7:22

Entonces recalcula el rebote de la luz, las

7:25

sombras proyectadas y los reflejos basándose en las

7:28

leyes de la física óptica que ha aprendido

7:31

durante su entrenamiento.

7:32

O sea que la integración es perfecta.

7:34

Absolutamente.

7:35

Elimina la caja negra, pero mantiene el motor

7:38

de renderizado avanzado intacto.

7:40

Pone el control algorítmico directamente en manos de

7:43

quien edita.

7:43

Y aquí es donde se pone realmente interesante.

7:47

Porque una cosa es alterar el color de

7:48

un objeto físico y tangible que al final

7:51

no deja de ser un cambio de variable

7:53

sencilla.

7:54

Sí, es cambiar una palabra por otra.

7:56

Pero otra muy distinta es adentrarse en lo

7:58

abstracto.

7:59

Hablamos de capturar el alma de una fotografía,

8:02

lo que en el vídeo se demuestra como

8:04

la técnica de robar estilos.

8:06

El concepto de extraer la esencia artística de

8:09

una imagen.

8:09

Efectivamente.

8:10

El nivel de abstracción sube considerablemente aquí.

8:13

En el tutorial, el creador toma un retrato

8:15

con un estilo fotográfico muy particular, muy cinematográfico

8:20

y atmosférico.

8:21

Y en vez de pedirle a la IA

8:23

que describa qué ropa lleva el sujeto o

8:25

qué muebles hay, la Instrucciones describe las técnicas

8:29

fotográficas de esta imagen en formato JSON.

8:32

Un enfoque totalmente distinto.

8:34

Y el resultado no es un simple foto

8:36

oscura y dramática.

8:38

En absoluto.

8:38

Gemini parametriza el arte de la fotografía.

8:41

¿A qué nivel de detalle llega?

8:42

Pues el código JSON que devuelve descompone el

8:45

estema de iluminación.

8:47

Indica si hay luz clave, luz de relleno

8:49

o recortes lumínicos traseros.

8:51

¡Guau!

8:52

Especifica el rango dinámico, la temperatura de color,

8:55

la gradación tonal.

8:56

Incluso simula las propiedades del equipo óptico que

8:59

se habría utilizado en el mundo real.

9:01

¿Te saca hasta la lente?

9:02

Sí.

9:03

Define la distancia focal, la profundidad de campo

9:05

y el nivel de aberración cromática.

9:07

Es, a todos los efectos, la disección de

9:10

cada decisión técnica y artística que un director

9:12

de fotografía tomaría en un plató.

9:14

Que esa técnica fotográfica se convierte en texto

9:17

puro, en datos que guardas en el portapapeles,

9:20

Elvidia muestra el siguiente paso lógico.

9:22

¿Qué hace con todo eso?

9:24

Pues sube dos o tres fotografías ordinarias desde

9:27

distintos ángulos para que la IA registre los

9:29

rasgos faciales de un sujeto concreto.

9:32

Vale.

9:32

¿Entrena al modelo con una cara?

9:35

Exacto.

9:35

Y a continuación, lanza la Instrucciones.

9:37

Genera una foto de esta persona basada en

9:40

el siguiente archivo JSON y pega todo ese

9:43

desglose de técnicas cinematográficas.

9:45

¡Madre mía!

9:46

El resultado es la recreación exacta de ese

9:48

sujeto bajo esa misma iluminación compleja, la misma

9:51

óptica y el mismo etalonaje de color.

9:53

O sea, ha logrado separar completamente la técnica

9:56

fotográfica de los objetos físicos.

9:59

Convierte el estilo en un activo portátil que

10:02

puedes aplicar a cualquier sujeto nuevo.

10:04

Es alucinante.

10:05

Y manteniendo una fidelidad visual asombrosa.

10:08

Todo gracias a esa coherencia del espacio latente.

10:11

Pero pongámonos en el caso de querer llevar

10:13

esa edición un paso más allá.

10:15

Imaginemos que, además de aplicar ese estilo al

10:17

rostro, se quiere cambiar trásticamente el vestuario.

10:20

Vale.

10:20

Añadir, por ejemplo, un traje formal de tres

10:22

piezas y una camisa roja donde antes sólo

10:25

había una camiseta básica.

10:26

Ahí la cosa se complica.

10:28

Claro.

10:28

Ahí veo un obstáculo enorme.

10:30

Si alterar un color era cambiar una palabra,

10:32

añadir un traje completo implica modificar el estilo.

10:35

Modificar la geometría del cuerpo, las arrugas de

10:37

la tela, el volumen que ocupa en el

10:39

espacio.

10:40

Totalmente.

10:41

Modificar el JSON manualmente para inyectar todas esas

10:43

nuevas coordenadas espaciales parece una tarea imposible.

10:46

O sea, si no tienes conocimientos avanzados de

10:49

programación, no es un riesgo enorme de corromper

10:51

la imagen.

10:52

Es un riesgo altísimo, sí.

10:53

Si se hiciera de forma manual.

10:55

Pero la solución que plantea la fuente es

10:58

de una elegancia técnica brillante.

11:00

¿Cómo lo resuelve?

11:01

Consiste en utilizar a la propia IA como

11:04

editora de su propio software.

11:05

¡Ostras!

11:06

Sí.

11:06

El usuario no necesita tocar ni un solo

11:09

corchete del archivo JSON.

11:11

El proceso pasa por instruir a Gemini con

11:14

lenguaje natural diciendo, añade un traje y una

11:17

camisa roja a esta persona en el prompt

11:19

JSON, y adjuntas el código original debajo.

11:22

O sea, ¿delegamos en el modelo la tarea

11:24

de reescribir su propia receta para acomodar esa

11:27

nueva geometría?

11:28

Exactamente.

11:28

La red neuronal analiza el JSON subyacente, comprende

11:32

la petición abstracta de añadir un traje, y

11:35

calcula todas las nuevas variables espaciales y semánticas.

11:38

Lo integra todo él solo.

11:39

Todo.

11:40

Sin romper el esquema general.

11:42

Reescribe las líneas de código pertinentes y genera

11:45

un nuevo JSON actualizado.

11:47

Y con eso ya renderizas.

11:49

Eso es.

11:49

Se utiliza ese nuevo código para generar la

11:52

imagen y en cuestión de segundos el sujeto

11:55

viste un traje perfectamente integrado.

11:57

La consistencia del rostro, el fondo y ese

12:00

estilo lumínico tan complejo permanecen inmutables.

12:03

Es magia pura.

12:05

Si conectamos esto con el panorama general, lo

12:08

que estamos observando es una disrupción profunda en

12:11

la economía de la creación visual.

12:13

Totalmente.

12:14

El nivel de control direccional que antes exigía

12:17

alquilar un estudio, configurar iluminación física, contratar estilistas

12:22

y pasar horas en postproducción, ahora se ha

12:25

comprimido en un flujo de operaciones estructuradas mediante

12:28

texto.

12:29

Es una democratización sin precedentes.

12:32

El impacto en los tiempos de producción y

12:34

en la accesibilidad de sistemas, es innegable.

12:35

Sin embargo, hay un punto en el que

12:37

interactuar exclusivamente a través de bloques de código

12:40

estructurado, bueno, resulta poco intuitivo para disciplinas eminentemente

12:44

visuales.

12:45

Es verdad.

12:46

Por mucho que la IA lo gestione, ver

12:48

tanto código asusta un poco.

12:50

Y aquí es donde la técnica del vídeo

12:52

da un giro interesante, porque demuestra que todo

12:55

este andamiaje de JSON se puede controlar a

12:57

través de una interfaz puramente interactiva.

13:00

Escribir código no es la única vía.

13:02

Claro.

13:02

La transición de la manipulación textual a la

13:05

interacción espacial es clave para la usabilidad.

13:08

El tutorial muestra cómo Gemini integra herramientas visuales

13:12

que actúan como un intermediario o un frontend

13:15

muy amigable.

13:16

Ocultando la complejidad del JSON que corre por

13:19

debajo.

13:19

Exacto.

13:20

Es un proceso visual muy directo.

13:22

Se hace clic sobre la imagen generada, se

13:25

selecciona una herramienta de pincel integrada y se

13:27

dibuja, literalmente, una flecha que apunta a un

13:30

sofá.

13:30

Ajá, súper intuitivo.

13:32

Sí.

13:32

En la misma interfaz aparece una herramienta de

13:35

texto y se escribe encima de la imagen,

13:37

vuelve el sofá rojo.

13:39

Acto seguido, dibujas otra flecha apuntando a una

13:41

silla vacía y escribes, pon un oso de

13:44

peluche en la silla.

13:45

Como dar instrucciones en una pizarra.

13:48

Exactamente.

13:48

No hay que bucear en líneas de código.

13:50

El gesto de apuntar y escribir traduce la

13:53

intención del usuario a las coordenadas espaciales que

13:55

la IA necesita.

13:56

Y esa traducción funciona de manera tan fluida

13:59

porque el modelo mantiene una comprensión segura.

14:02

¿Tiene algún tipo de semántica constante de la

14:03

escena?

14:04

Claro, sabe dónde está cada cosa.

14:06

Cuando se dibuja la flecha, el sistema localiza

14:09

ese vector en su mapa Json, interno, y

14:12

aplica la modificación solicitada.

14:14

Ahora bien, el tutorial sí que destaca un

14:16

efecto secundario temporal de este método.

14:19

Interactivo.

14:19

¿Cuál es?

14:20

Las propias palabras escritas sobre la imagen.

14:23

A veces, al procesar este tipo de prompts

14:25

visuales, la IA puede dejar un residuo de

14:29

ese texto instructivo rojo, impreso en el resultado

14:32

final.

14:32

Ah, se cree que el texto rojo es

14:34

parte de la foto.

14:35

Exacto.

14:36

Lo trata por error como parte del contenido

14:38

gráfico.

14:39

Lo cual arruinaría la imagen, claro.

14:41

Si no fuera porque la solución es casi

14:43

absurdamente sencilla.

14:45

Basta con lanzar otra petición en texto indicando,

14:48

elimina el texto rojo.

14:49

Y la IA limpia la imagen al momento.

14:51

Empiende el contexto del error perfectamente.

14:54

Sí.

14:54

Además, el entorno cuenta con un historial de

14:57

deshacer y rehacer, lo que elimina el miedo

14:59

a experimentar.

15:00

Si un cambio estropea la composición, se vuelve

15:02

al estado anterior del JSON con un solo

15:04

clic.

15:05

Eso da muchísima tranquilidad.

15:06

Pero llegados a este punto, habiendo dominado la

15:09

alteración de objetos y estilos dentro del encuadre

15:12

original, el análisis entra en el terreno de

15:14

las capacidades del modelo superior, el Nano Banana

15:17

Pro.

15:17

Y me refiero a la manipulación del propio

15:20

encuadre, la relación de aspecto.

15:22

El cambio de proporciones es una de las

15:25

demostraciones técnicas más robustas del tutorial.

15:28

Se empieza con un retrato en formato panorámico

15:31

estándar, el clásico 16 novenos.

15:34

Sí.

15:34

Y al introducir el comando aspect -ratio 916,

15:39

la IA reconfigura instantáneamente el lienzo para adaptarlo

15:42

a un formato vertical de móvil.

15:44

Pasa por el formato cuadrado, llega incluso a

15:47

un formato ultra gran angular de 21 novenos.

15:50

Y esto es solo en la versión Pro,

15:52

¿no?

15:52

Bueno, cabe mencionar que, aunque se muestra en

15:56

el entorno Pro, la fuente original ya documentó

15:59

en videos anteriores que los usuarios de versiones

16:01

gratuitas también disponen de metodologías para lograr redimensionados

16:05

similares.

16:06

Ah, estupendo.

16:08

Pero la verdadera innovación aquí no es recortar

16:12

la imagen, sino el proceso de outpainting, la

16:15

expansión del lienzo.

16:17

Ese concepto merece que nos detengamos un momento.

16:19

El video muestra una fotografía de medio cuerpo

16:22

y el usuario introduce la instrucción, genera una

16:25

imagen de cuerpo entero de esta persona.

16:26

Llevando vaqueros y sosteniendo un maletín en proporción

16:30

9 -16.

16:31

Y fíjate que el modelo no estira los

16:33

píxeles hacia abajo.

16:34

No, no.

16:36

Inventa una realidad que nunca estuvo en el

16:38

archivo original.

16:39

Es un proceso de alucinación controlada sumamente complejo.

16:42

Para ejecutar esa expansión, la IA debe extrapolar

16:46

el contexto a partir de los datos existentes,

16:49

analiza la anatomía visible y deduce la postura

16:51

de las piernas.

16:52

O sea, calcula dónde estarían.

16:54

Claro.

16:55

Evalúa la caída de la luz en la

16:57

mitad superior y calcula cómo deberían comportarse las

17:00

sombras sobre unos vaqueros en la mitad inferior

17:02

inexistente.

17:03

Es que es increíble.

17:05

Introduce el maletín en la mano respetando la

17:07

perspectiva y genera la textura del suelo para

17:09

anclar al sujeto en el espacio.

17:11

No está ampliando un lienzo, está simulando el

17:13

resto del mundo físico basándose en las restricciones

17:16

del JSON original.

17:17

Pero a ver, esta simulación plantea un problema

17:20

físico ineludible.

17:21

Cuando fuerzas a una red neuronal a inventar

17:24

tanta información, nueva desde cero, o cuando cambias

17:27

ropa y objetos varias veces, la integridad de

17:29

los píxeles empieza a desmoronarse.

17:31

Sí, empiezan a aparecer cosas raras.

17:34

Suelen aparecer artefactos visuales, pérdida de nitidez en

17:37

los bordes, zonas borrosas, y ese clásico ruido

17:40

digital que te grita, esto es una imagen

17:42

generada por IA forzada al límite.

17:44

¿Cómo maneja el ecosistema de Gemini esta degradación

17:47

de la calidad?

17:49

Aborda la degradación a través de un proceso

17:51

de reconstrucción, que la fuente denomina Axe Scale,

17:54

o mejora de calidad.

17:56

Y lo hace sin depender de software de

17:58

terceros, que es lo importante.

18:00

Todo dentro de Gemini.

18:01

Todo.

18:02

Cuando la imagen evidencia pérdida de nitidez tras

18:05

expansiones agresivas, el usuario simplemente introduce el comando

18:09

Escala esta imagen a 4K.

18:11

Pero, ¿cómo funciona exactamente ese escalado?

18:14

Porque si simplemente multiplicamos los píxeles, tendríamos una

18:17

imagen más grande, pero igual de borrosa.

18:19

Exacto.

18:20

No es un escalado matemático tradicional.

18:22

Es un escalado generativo basado en modelos de

18:26

difusión.

18:26

Al pedir el salto a 4K, la IA

18:29

no estira la imagen.

18:30

¿Qué hace entonces?

18:32

Inyecta un nivel de ruido de alta frecuencia

18:35

en los píxeles degradados y utiliza su comprensión

18:38

semántica para resolver ese ruido en detalle puro.

18:41

O sea, ¿redibuja los detalles?

18:43

Eso es.

18:44

Sabe que una zona borrosa corresponde a la

18:46

tela de unos vaqueros.

18:47

Así que el proceso alucina la trama exacta

18:50

de ese tejido a resolución 4K.

18:53

Reconstruye poros en la piel, texturas en la

18:56

madera, nitidez en contornos, todo basándose en el

18:59

contexto global de la esquena.

19:01

¿Y sin tocar deslizadores de enfoque ni nada?

19:03

Nada.

19:04

Es una regeneración algorítmica completa.

19:06

Ven, recapitulemos el proceso un momento.

19:09

Se ha extraído el cóligo base, modificado el

19:11

color de los muebles, asimilado un estilo fotográfico,

19:15

cambiado el vestuario reescribiendo el código, operado visualmente

19:18

dibujando flechas, expandido el lienzo deduciendo las piernas

19:22

y el suelo, y finalmente escalado todo a

19:24

4K resolviendo cualquier imperfección.

19:27

Dicho así, suena a ciencia ficción.

19:29

Totalmente.

19:30

La imagen parece lista para producción, pero el

19:33

tutorial revera un último obstáculo, el enemigo número

19:35

uno de cualquier flujo de trabajo visual, las

19:38

marcas de agua incrustadas por la propia herramienta.

19:41

Sí, un elemento restrictivo que muchas plataformas implementan

19:45

por defecto para rastrear de dónde viene el

19:47

contenido.

19:48

Y la imagen final de esta demostración efectivamente

19:51

carga con una de estas herramientas.

19:52

Y es precisamente en este punto donde la

19:55

comunidad de desarrolladores brilla, ofreciendo una solución que

19:58

no requiere exportar el trabajo a programas de

20:00

retoque costosos ni andar clonando a mano.

20:03

¿Qué solución proponen?

20:05

El propio creador del tutorial proporciona acceso a

20:08

una herramienta gratuita, enlazada en la descripción, diseñada

20:11

específicamente para eliminar estas marcas de agua.

20:14

Lo destacable es que esta utilidad fue construida

20:16

previamente por él mismo utilizando Google AI Studio.

20:20

Qué inteligente.

20:21

El flujo de trabajo para eliminar la marca,

20:24

además, es extremadamente minimalista.

20:26

Subes el renderizado final a esta herramienta dedicada,

20:30

usas una brocha digital para enmascarar la zona

20:32

del logotipo y ejecutas la acción, eliminar lo

20:35

seleccionado.

20:36

Así de fácil.

20:37

Sí, la herramienta analiza los píxeles circundantes y

20:40

genera un relleno contextual perfecto.

20:43

Te descargas un archivo prístino.

20:45

Esto plantea una pregunta importante sobre la actual

20:48

autonomía del ecosistema técnico.

20:50

A ver.

20:50

Tradicionalmente, superar barreras como la eliminación de marcas

20:54

de agua o la edición compleja exigía dominar

20:58

plataformas basadas en capas, máscaras de recorte, modos

21:01

de fusión… Horas de tutoriales, vamos.

21:04

Claro.

21:04

Hoy, esos problemas se resuelven mediante instrucciones en

21:08

lenguaje natural y con microherramientas que los propios

21:11

creadores están ensamblando utilizando modelos de lenguaje.

21:14

La inteligencia artificial no solo genera el arte.

21:17

Está facilitando la creación de los propios andamios

21:20

técnicos necesarios para refinarlo.

21:22

Entonces, ¿qué significa todo esto a nivel fundamental?

21:25

Si contemplamos el arco completo de estas técnicas,

21:28

queda claro que se ha producido una transición

21:30

radical.

21:30

Hemos abandonado el enfoque de la máquina tragaperras

21:33

donde metías palabras esperando un golpe de suerte

21:36

estético.

21:37

Totalmente.

21:37

Y hemos adoptado el uso de un bisturí

21:39

de precisión paramétrica.

21:41

Comprender que cualquier imagen puede reducirse a un

21:43

archivo JSON manipulable permite desde alterar objetos individuales,

21:47

manteniendo la luz, hasta aplicar etalonajes cinematográficos a

21:50

sujetos nuevos, expandir universos y perfeccionar la resolución

21:53

al milímetro.

21:54

Todo gobernado dentro de Gemini Nano, Banana 2

21:57

y Pro.

21:58

Sí.

21:58

Es que la precisión técnica ha dejado de

22:01

ser una limitación para la IA generativa y

22:04

se ha convertido en su principal motor.

22:06

Y esto conduce a una reflexión profunda.

22:09

Si es posible extraer conceptos tan abstractos como

22:12

la atmósfera o la técnica fotográfica, convertirlos en

22:15

datos y reescribirlos, el concepto clásico de la

22:19

fotografía como captura irrefutable de la realidad entra

22:22

en crisis.

22:23

Es un cambio filosófico, casi.

22:25

Históricamente, la imagen congelaba un instante inmutable en

22:28

el tiempo.

22:29

Sin embargo, cuando la realidad visual de una

22:31

escena puede alterarse drásticamente cambiando la palabra camiseta

22:35

por traje en una línea de código, sin

22:37

dejar rastro de manipulación, ya no te puedes

22:40

fiar.

22:40

la imagen abandona su condición de documento estático.

22:43

Se transforma en un borrador infinito.

22:45

Un estado líquido donde la realidad representada es

22:48

perpetuamente maleable.

22:50

Borrador infinito.

22:51

Wow.

22:52

Es un concepto fascinante que altera por completo

22:55

la percepción de lo que consideramos una imagen

22:57

terminada.

22:58

Saber que cualquier renderizado es en el fondo

23:01

una matriz de datos susceptible de ser reescrita

23:03

desde sus cimientos desafía nuestra concepción del arte

23:06

digital.

23:08

Muchísimas gracias por acompañarnos en esta inmersión a

23:10

fondo.

23:11

Es un momento ideal para que la audiencia

23:12

busque imágenes propias, intente extraer sus datos y

23:15

ponga a prueba estas técnicas.

23:17

Quien se anime se dará cuenta rápidamente de

23:20

que el control absoluto sobre el lienzo digital

23:23

ya no es una promesa futura, sino una

23:25

realidad accesible hoy mismo.

23:28

Exacto.

23:29

Antes de despedirnos hasta el próximo programa, os

23:32

informamos de que las voces que oyes han

23:33

sido generadas por la IA de Notebook LM

23:35

y que dirigiendo al podcast se encuentra Julio

23:38

Pablo Vázquez, un humano que te envía saludos.

23:40

En caso de error, probablemente sean errores humanos.

23:42

¡Nos escuchamos!

23:56

El episodio de hoy.

23:57

Muchas gracias por tu atención.

24:08

Esto es BIM Praxis.

24:10

Nos escuchamos en el próximo episodio.

E082_Control milimétrico de imágenes IA con JSON y Nano Banana

Episode description

Descripción del Episodio

Persons