E020_Generar imágenes mediante ¿principios termodinámicos?

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a BIMPRAXIS. Hoy presentamos la sexta entrega de nuestra serie,

0:43

Los Papers que cambiaron la historia de la IA.

0:45

Una serie que nos está llevando por un viaje increíble.

0:49

Pues sí. Y el documento que tenemos hoy sobre la mesa es uno que, en junio de 2020,

0:55

cayó como una bomba silenciosa en el campo de la inteligencia artificial.

1:00

Su título es Denoising Diffusion Probabilistic Models.

1:05

Los autores, Jonathan Ho, Ajay Jain y Petra Bebel.

1:09

Un título bastante técnico, ¿sí?

1:12

Mucho. Y nuestra misión hoy es entender por qué.

1:15

Porque este trabajo, que a primera vista parece, bueno, increíblemente denso,

1:20

fue la verdadera chispa que encendió la hoguera de la IA generativa de imágenes que hoy nos parece tan común.

1:26

Totalmente. Y es que es crucial situarse en ese momento, en 2020.

1:32

Exacto.

1:33

Las ideas sobre modelos de difusión no eran nuevas.

1:36

Llevaban décadas en la literatura teórica, pero eran casi una curiosidad académica.

1:42

No se usaban en la práctica.

1:43

Para nada.

1:45

El campo estaba dominado por completo por otra tecnología, las GANs, o redes generativas antagónicas.

1:52

Las reinas de la generación de imágenes en aquel entonces.

1:55

Sin duda.

1:56

Y este paper no solo demostró que los modelos de difusión eran viables,

2:00

sino que podían barrer a los campeones en su propio juego.

2:04

Fue el momento en que toda la comunidad investigadora se detuvo y dijo,

2:08

un momento, ¿qué acaba de pasar aquí?

2:10

A ver, vamos a desgranar esto.

2:12

Porque el título ya impone.

2:14

Modelos Probabilistic.

2:15

Modelos Probabilisticos de difusión con eliminación de ruido.

2:18

Suena complejo, sí.

2:19

Y si leemos el resumen, la primera frase menciona que se inspiran en la termodinámica del no equilibrio.

2:25

O sea, suena a física de partículas, no a crear imágenes de gatos.

2:30

¿Hay alguna forma de aterrizar este concepto?

2:32

La hay.

2:33

Y la verdad es que es sorprendentemente elegante.

2:37

Olvidémonos de la termodinámica por un segundo y pensemos en un proceso muy simple.

2:42

Venga.

2:42

Coge una foto, la que sea, perfectamente nítida.

2:46

Ahora, añádele una pizca de ruido, como la estática de un televisor antiguo o algo casi imperceptible.

2:53

¿Vale?

2:53

Ahora, repite el proceso.

2:55

Otra pizca.

2:56

Y otra.

2:57

Y otra.

2:58

Miles de veces.

2:59

Al final, la imagen original ha desaparecido por completo, devorada por el ruido.

3:04

O sea, te queda un caos de píxeles.

3:06

Pura aleatoriedad.

3:07

Justo.

3:08

Un proceso de destrucción controlada.

3:11

Vamos del orden al desorden.

3:13

¿Entendido?

3:13

Pues bien.

3:14

La genialidad de este modelo no es tan destruir la imagen, sino en aprender a revertir ese proceso de forma exacta.

3:21

Ah, claro.

3:22

Se le entrena mostrándole miles de veces ese camino hacia el caos.

3:27

Y su única tarea es aprender a deshacerlo.

3:30

Se le da una imagen de puro ruido y se le pide, elimina el último granito de ruido que se añadió.

3:36

Y luego el penúltimo y así.

3:38

Paso a paso, de forma gradual, hasta que partiendo de la nada, del caos absoluto,

3:43

reconstruya una imagen coherente y, lo más importante, completamente nueva.

3:48

Perdona que te interrumpa, pero para que quede claro,

3:51

¿cuando hablas de ruido, es un caos cualquiera o hay algún método?

3:54

Es puro azar.

3:55

Muy buena pregunta.

3:57

Es un detalle clave.

3:58

No es un caos total.

4:00

Es un caos estructurado.

4:03

Se utiliza un tipo de ruido muy específico, ruido gaussiano,

4:06

y en cada paso se añade una cantidad precisa y conocida.

4:10

Ah, vale.

4:11

¿Qué es eso?

4:11

Esa predictibilidad en el proceso de destrucción.

4:13

Es lo que permite al modelo aprender a revertirlo.

4:17

Sabe exactamente qué tipo de desorden tiene que buscar y eliminar en cada etapa.

4:22

¿Y la conexión con la termodinámica viene de ahí, entonces?

4:25

Exacto.

4:26

De esa idea de ir del orden al desorden, que es aumentar la entropía,

4:31

y aprender a revertir el proceso para crear orden a partir del caos.

4:35

Vale, la idea es fascinante.

4:37

En lugar de que la IA intente soñar una imagen de golpe, como hacían otros modelos,

4:42

aquí la va esculpiendo.

4:43

Revelándola desde el ruido.

4:45

Justo.

4:46

Me llama la atención una frase del resumen del paper.

4:48

Esquema de descompresión progresiva con pérdida.

4:52

Suena un poco a cómo funciona un archivo JPG, que también descomprime una imagen.

4:57

¿Hay alguna relación o estoy mezclando conceptos?

4:59

Es una intuición interesante, porque te centras en la palabra clave, que es progresiva.

5:04

Sí.

5:04

Pero en realidad son procesos casi opuestos.

5:07

Un JPG descomprime datos que ya están ahí, ocultos en el archivo.

5:11

Es un proceso determinista.

5:13

Para recuperar algo que existe.

5:15

Entiendo.

5:16

El modelo de difusión no está recuperando nada.

5:19

Está creando información en cada paso a partir del ruido.

5:23

No está desempaquetando.

5:25

Está inventando de forma guiada.

5:27

La analogía del escultor que mencionabas antes parece más precisa.

5:31

Mucho más.

5:32

Una GAN sería como un mago que intenta hacer aparecer la estatua de la nada, con un conjuro.

5:38

A veces funciona y es espectacular, pero muchas otras falla estrepitosamente.

5:43

Ya.

5:44

Este modelo de difusión es un artesano, un escultor.

5:48

Empieza con un bloque de mármol informe, que es nuestro ruido aleatorio.

5:52

El punto de partida.

5:53

Sí.

5:54

Y en el primer paso da un pequeño golpe de cincel y quita un poco de ruido, revelando apenas una silueta.

6:00

En el siguiente paso, otro golpe.

6:02

Y esa silueta se define un poco más.

6:05

Y así cientos de veces.

6:06

Cientos de veces.

6:07

Y en cada etapa, refina el resultado, añadiendo detalles cada vez más finos.

6:12

Es un proceso metórico.

6:13

No mágico.

6:15

Y esa metodología es la que permitió alcanzar un nivel de detalle y coherencia que nadie esperaba de esta técnica.

6:20

Entiendo la teoría.

6:22

Y la analogía del escultor es genial.

6:24

Pero en el mundo de la investigación, las analogías no bastan.

6:27

Me imagino que Ho y su equipo tuvieron que demostrar con cifras frías y duras que su escultor digital era mejor que los magos de las GANs.

6:36

¿Cómo lo hicieron?

6:37

Exacto.

6:38

Tuvieron que llevarlo al laboratorio y medirlo.

6:40

Y aquí es donde el paper realmente brilla.

6:42

Y causó tanto revuelo.

6:44

Se centraron en dos métricas clave.

6:46

Para el conjunto de datos CIFAR-10, que son imágenes pequeñas, consiguieron un FIT y SCORE de 3.17.

6:54

¿Y eso qué significa para alguien que no vive inmerso en estas métricas?

6:58

Pues significa que destronaron al rey.

7:01

El FID, o Frechette Inception Distance, mide la calidad y la diversidad de las imágenes.

7:07

Y lo más importante, cuanto más bajo es el número, mejor.

7:11

Vale.

7:12

En 2020, las mejores GANs, después de años y años de optimización por parte de cientos de laboratorios, apenas rozaban esa cifra.

7:21

Que un modelo basado en una técnica casi olvidada llegara y consiguiera un 3.17 no fue una mejora incremental.

7:28

Fue un golpe sobre la mesa.

7:30

Totalmente.

7:31

Fue como si un nuevo contendiente subiera al ring y noqueara al campeón en el primer asalto.

7:36

Vaya.

7:36

O quizás, y es una imagen más precisa, como si un luchador de un arte marcial completamente nuevo,

7:42

entrara al ring.

7:44

Nadie sabía cómo contrarrestar sus movimientos.

7:47

Las GANs estaban diseñadas para pelear contra otras GANs.

7:51

Pero este modelo jugaba un juego diferente.

7:54

Uno más lento, más metódico.

7:56

Pero con un golpe final demoledor en términos de calidad de imagen.

8:00

El FIDI fue el titular.

8:02

La cifra que hizo que todo el mundo en el campo de la IA se sentara y leyera este paper con muchísima atención.

8:08

Y no se quedaron ahí, ¿verdad?

8:09

Porque a veces estos métodos funcionan muy bien.

8:12

También funcionan con imágenes pequeñas y sencillas, pero se desmoronan con algo más complejo.

8:15

Cierto.

8:16

El paper también menciona que en otro conjunto de datos, el ESUN,

8:20

con imágenes mucho más grandes de 256x256,

8:24

la calidad era similar a la de Progressive GAN.

8:26

Y esto es importante.

8:28

Importantísimo.

8:29

Porque Progressive GAN era uno de los modelos GAN más avanzados y respetados de la época.

8:34

Claro.

8:34

Y ese punto fue absolutamente crucial.

8:36

Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

8:41

Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

8:42

Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

8:42

Demostró que el método era escalable, que podía manejar la complejidad del mundo real.

8:46

Podían competir en las ligas mayores.

8:47

Exacto.

8:48

Poder decir, somos los mejores en esta métrica clave con imágenes pequeñas

8:53

y, además, igualamos la calidad de los mejores en imágenes grandes,

8:59

fue un doble golpe demoledor.

9:01

Hizo que la comunidad dejara de ver los modelos de difusión como una curiosidad

9:05

y empezara a verlos como el futuro.

9:08

Entonces, si recapitulamos, el paper no solo presentó un modelo,

9:11

con resultados espectaculares, sino que también parecía más robusto.

9:16

Pero aquí me surge una duda.

9:18

Si era tan bueno, ¿había alguna desventaja?

9:21

La había, claro.

9:23

Suena demasiado bueno para ser verdad.

9:25

Si el método era tan potente y la idea subyacente no era nueva,

9:29

¿por qué no se había popularizado antes?

9:31

¿Cuál era el truco?

9:32

Esa es la pregunta del millón.

9:34

Y la respuesta revela el gran problema de estos modelos en 2020.

9:39

A ver.

9:39

La estabilidad y la calidad.

9:41

Tenían un coste.

9:43

Y era un coste altísimo.

9:44

La velocidad de inferencia.

9:46

Es decir, el tiempo necesario para generar una sola imagen.

9:50

Ajá, el escultor era lento.

9:52

Lentísimo.

9:53

Una GAN, como el mago, hacía su truco en un solo paso

9:56

y te daba la imagen casi al instante.

9:59

El modelo de difusión necesitaba dar cientos, a veces miles,

10:04

de pequeños golpes de cincel.

10:06

Generar una sola imagen era un proceso computacionalmente carísimo.

10:10

Entiendo.

10:11

Este paper...

10:11

Demostró que la calidad obtenida valía la pena.

10:15

Pero el siguiente gran reto para toda la comunidad

10:17

fue precisamente cómo acelerar a ese escultor.

10:21

Claro.

10:22

Abrieron una puerta a una calidad superior.

10:24

Pero al otro lado había un proceso muy costoso.

10:27

Y me imagino que esto también pone en perspectiva

10:29

la otra gran ventaja que se suele citar.

10:31

La estabilidad en el entrenamiento, ¿no?

10:34

Por supuesto.

10:35

¿Por qué era tan importante escapar de las GANs en ese sentido?

10:37

Porque entrenar una GAN era,

10:41

y sigue siendo, un arte oscuro.

10:44

Una GAN se compone de dos redes que compiten.

10:47

Un generador que crea imágenes

10:49

y un discriminador que intenta distinguir las falsas de las reales.

10:53

Y tienen que estar en equilibrio.

10:55

Un equilibrio perfecto y muy delicado.

10:58

Si el discriminador es demasiado bueno, el generador nunca aprende.

11:01

Si el generador es demasiado bueno,

11:03

engaña fácilmente al discriminador y deja de mejorar.

11:06

Es un proceso muy, muy inestable.

11:08

¿Y qué problemas prácticos causa esa inestabilidad?

11:11

Pues, el más famoso es el colapso de modo.

11:15

Imagina que le pides a una GAN que genere caras de personas.

11:19

Pues a veces, la red se queda atascada

11:21

y solo aprende a generar un único tipo de cara.

11:25

Se olvida de toda la diversidad.

11:26

Vaya.

11:27

Conseguir que una GAN aprenda a generar un abanico amplio de imágenes

11:31

es increíblemente difícil.

11:34

Los modelos de difusión, aunque lentos, no tienen este problema.

11:38

Su aprendizaje es mucho más directo y predecible.

11:40

O sea, ¿qué es lo que hace la GAN?

11:40

¿Qué es lo que hace la GAN?

11:40

¿Qué es lo que hace la GAN?

11:40

¿Qué es lo que hace la GAN?

11:40

¿Qué es lo que hace la GAN?

11:40

¿Qué es lo que hace la GAN?

11:40

O sea, que no solo era mejor en los resultados,

11:43

sino que el camino para llegar a ellos era menos tortuoso para los investigadores.

11:47

Se eliminó una barrera de entrada enorme.

11:49

Precisamente.

11:50

Se democratizó, en cierto sentido,

11:52

el acceso a la generación de imágenes de altísima calidad.

11:56

Un laboratorio con los recursos computacionales necesarios

11:59

podía replicar estos resultados de forma fiable,

12:02

sin pelearse durante semanas con los caprichos de una GAN.

12:06

Y ese es un catalizador para el progreso.

12:08

Totalmente.

12:09

Cuando quitas fricción,

12:10

la innovación se acelera exponencialmente.

12:13

Conectemos entonces todos los puntos con el presente.

12:16

Tenemos un trabajo de 2020 que valida una técnica,

12:20

demuestra resultados de vanguardia,

12:22

ofrece un entrenamiento más estable.

12:24

Pero es lento.

12:26

¿Cómo se ve su legado hoy?

12:27

Su legado es total y absoluto.

12:30

Este paper es el antepasado directo,

12:32

el paciente cero de la explosión de IA generativa

12:36

que vimos a partir de finales de 2021.

12:38

O sea, ¿Dali 2?

12:40

¿Mi Journey?

12:41

¿Stable Diffusion?

12:42

Todas ellas.

12:43

Todas se basan en los principios de los modelos de difusión

12:46

que este trabajo validó de forma tan contundente.

12:49

Proporcionó el plano y la prueba de concepto.

12:52

Y la investigación posterior se centró en la velocidad.

12:55

Justo.

12:56

Toda la investigación de los años siguientes

12:58

se centró en resolver el problema que dejaron abierto.

13:01

Cómo hacer que el escultor trabaje más rápido.

13:04

Y los modelos que usamos hoy son la respuesta a esa pregunta.

13:08

Son descendientes directos de este trabajo,

13:10

pero optimizados para ser miles de veces más veloces.

13:14

La conclusión parece clara.

13:16

Este paper de 2020 no fue una mejora más,

13:19

sino un cambio de paradigma.

13:21

Demostró el inmenso potencial de una idea

13:23

que estaba en un segundo plano.

13:25

Y marcó la hoja de ruta para las herramientas

13:27

que hoy fascinan al mundo.

13:29

Exactamente.

13:30

Es un texto fundacional.

13:32

No se puede entender el estado del arte

13:34

de la generación de imágenes actual

13:36

sin reconocer el impacto sísmico de este trabajo.

13:39

Mostró un nuevo camino.

13:40

Y toda la comunidad científica, al ver los resultados,

13:43

decidió explorarlo en masa.

13:44

Y los frutos de esa exploración

13:46

son las herramientas que vemos todos los días.

13:48

Tal cual.

13:49

A ver, para terminar,

13:50

me gustaría proponer una última reflexión

13:53

que nos deja este trabajo.

13:54

Algo que va más allá de lo técnico.

13:56

A ver.

13:57

Este modelo, como explicabas,

13:59

aprende a crear orden y coherencia

14:01

partiendo del caos absoluto, del ruido.

14:04

Nos hace pensar en la propia naturaleza de la creatividad.

14:07

Es, en el fondo, una forma de encontrar una señal donde,

14:10

solo hay ruido.

14:11

¿De descubrir un patrón en la aleatoriedad?

14:13

Sí, de dar forma a lo informe.

14:16

Es una idea muy poderosa.

14:18

A menudo pensamos en la creatividad

14:19

como un destello que surge de la nada.

14:22

Pero quizás se parezca más a este proceso.

14:25

Un filtrado paciente y metódico que,

14:27

a partir de un mar de posibilidades caóticas,

14:30

va revelando poco a poco una estructura con significado.

14:34

Es una perspectiva fascinante, la verdad.

14:36

Lo es.

14:37

Y con esa idea cerramos el análisis de hoy.

14:40

Este ha sido el sexto paper de nuestra serie,

14:42

pero el viaje no termina aquí.

14:44

Mañana, en nuestra séptima entrega,

14:47

abordaremos otro documento que cambió las reglas del juego

14:50

de una forma completamente distinta,

14:52

esta vez en el mundo del lenguaje.

14:54

Otro texto clave.

14:56

Desde luego. No se lo pierdan.

14:58

Gracias por acompañarnos en este análisis en profundidad.

15:02

Ha sido un placer.

15:03

Hasta la próxima.

15:04

Y hasta aquí el episodio de hoy.

15:17

Muchas gracias por tu atención.

15:20

Esto es BIMPRAXIS.

15:30

Nos escuchamos en el próximo episodio.

E020_Generar imágenes mediante ¿principios termodinámicos?

Episode description

Persons