Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.
¡Empezamos!
Bienvenidos a BIMPRAXIS. Hoy presentamos la sexta entrega de nuestra serie,
Los Papers que cambiaron la historia de la IA.
Una serie que nos está llevando por un viaje increíble.
Pues sí. Y el documento que tenemos hoy sobre la mesa es uno que, en junio de 2020,
cayó como una bomba silenciosa en el campo de la inteligencia artificial.
Su título es Denoising Diffusion Probabilistic Models.
Los autores, Jonathan Ho, Ajay Jain y Petra Bebel.
Un título bastante técnico, ¿sí?
Mucho. Y nuestra misión hoy es entender por qué.
Porque este trabajo, que a primera vista parece, bueno, increíblemente denso,
fue la verdadera chispa que encendió la hoguera de la IA generativa de imágenes que hoy nos parece tan común.
Totalmente. Y es que es crucial situarse en ese momento, en 2020.
Exacto.
Las ideas sobre modelos de difusión no eran nuevas.
Llevaban décadas en la literatura teórica, pero eran casi una curiosidad académica.
No se usaban en la práctica.
Para nada.
El campo estaba dominado por completo por otra tecnología, las GANs, o redes generativas antagónicas.
Las reinas de la generación de imágenes en aquel entonces.
Sin duda.
Y este paper no solo demostró que los modelos de difusión eran viables,
sino que podían barrer a los campeones en su propio juego.
Fue el momento en que toda la comunidad investigadora se detuvo y dijo,
un momento, ¿qué acaba de pasar aquí?
A ver, vamos a desgranar esto.
Porque el título ya impone.
Modelos Probabilistic.
Modelos Probabilisticos de difusión con eliminación de ruido.
Suena complejo, sí.
Y si leemos el resumen, la primera frase menciona que se inspiran en la termodinámica del no equilibrio.
O sea, suena a física de partículas, no a crear imágenes de gatos.
¿Hay alguna forma de aterrizar este concepto?
La hay.
Y la verdad es que es sorprendentemente elegante.
Olvidémonos de la termodinámica por un segundo y pensemos en un proceso muy simple.
Venga.
Coge una foto, la que sea, perfectamente nítida.
Ahora, añádele una pizca de ruido, como la estática de un televisor antiguo o algo casi imperceptible.
¿Vale?
Ahora, repite el proceso.
Otra pizca.
Y otra.
Y otra.
Miles de veces.
Al final, la imagen original ha desaparecido por completo, devorada por el ruido.
O sea, te queda un caos de píxeles.
Pura aleatoriedad.
Justo.
Un proceso de destrucción controlada.
Vamos del orden al desorden.
¿Entendido?
Pues bien.
La genialidad de este modelo no es tan destruir la imagen, sino en aprender a revertir ese proceso de forma exacta.
Ah, claro.
Se le entrena mostrándole miles de veces ese camino hacia el caos.
Y su única tarea es aprender a deshacerlo.
Se le da una imagen de puro ruido y se le pide, elimina el último granito de ruido que se añadió.
Y luego el penúltimo y así.
Paso a paso, de forma gradual, hasta que partiendo de la nada, del caos absoluto,
reconstruya una imagen coherente y, lo más importante, completamente nueva.
Perdona que te interrumpa, pero para que quede claro,
¿cuando hablas de ruido, es un caos cualquiera o hay algún método?
Es puro azar.
Muy buena pregunta.
Es un detalle clave.
No es un caos total.
Es un caos estructurado.
Se utiliza un tipo de ruido muy específico, ruido gaussiano,
y en cada paso se añade una cantidad precisa y conocida.
Ah, vale.
¿Qué es eso?
Esa predictibilidad en el proceso de destrucción.
Es lo que permite al modelo aprender a revertirlo.
Sabe exactamente qué tipo de desorden tiene que buscar y eliminar en cada etapa.
¿Y la conexión con la termodinámica viene de ahí, entonces?
Exacto.
De esa idea de ir del orden al desorden, que es aumentar la entropía,
y aprender a revertir el proceso para crear orden a partir del caos.
Vale, la idea es fascinante.
En lugar de que la IA intente soñar una imagen de golpe, como hacían otros modelos,
aquí la va esculpiendo.
Revelándola desde el ruido.
Justo.
Me llama la atención una frase del resumen del paper.
Esquema de descompresión progresiva con pérdida.
Suena un poco a cómo funciona un archivo JPG, que también descomprime una imagen.
¿Hay alguna relación o estoy mezclando conceptos?
Es una intuición interesante, porque te centras en la palabra clave, que es progresiva.
Sí.
Pero en realidad son procesos casi opuestos.
Un JPG descomprime datos que ya están ahí, ocultos en el archivo.
Es un proceso determinista.
Para recuperar algo que existe.
Entiendo.
El modelo de difusión no está recuperando nada.
Está creando información en cada paso a partir del ruido.
No está desempaquetando.
Está inventando de forma guiada.
La analogía del escultor que mencionabas antes parece más precisa.
Mucho más.
Una GAN sería como un mago que intenta hacer aparecer la estatua de la nada, con un conjuro.
A veces funciona y es espectacular, pero muchas otras falla estrepitosamente.
Ya.
Este modelo de difusión es un artesano, un escultor.
Empieza con un bloque de mármol informe, que es nuestro ruido aleatorio.
El punto de partida.
Sí.
Y en el primer paso da un pequeño golpe de cincel y quita un poco de ruido, revelando apenas una silueta.
En el siguiente paso, otro golpe.
Y esa silueta se define un poco más.
Y así cientos de veces.
Cientos de veces.
Y en cada etapa, refina el resultado, añadiendo detalles cada vez más finos.
Es un proceso metórico.
No mágico.
Y esa metodología es la que permitió alcanzar un nivel de detalle y coherencia que nadie esperaba de esta técnica.
Entiendo la teoría.
Y la analogía del escultor es genial.
Pero en el mundo de la investigación, las analogías no bastan.
Me imagino que Ho y su equipo tuvieron que demostrar con cifras frías y duras que su escultor digital era mejor que los magos de las GANs.
¿Cómo lo hicieron?
Exacto.
Tuvieron que llevarlo al laboratorio y medirlo.
Y aquí es donde el paper realmente brilla.
Y causó tanto revuelo.
Se centraron en dos métricas clave.
Para el conjunto de datos CIFAR-10, que son imágenes pequeñas, consiguieron un FIT y SCORE de 3.17.
¿Y eso qué significa para alguien que no vive inmerso en estas métricas?
Pues significa que destronaron al rey.
El FID, o Frechette Inception Distance, mide la calidad y la diversidad de las imágenes.
Y lo más importante, cuanto más bajo es el número, mejor.
Vale.
En 2020, las mejores GANs, después de años y años de optimización por parte de cientos de laboratorios, apenas rozaban esa cifra.
Que un modelo basado en una técnica casi olvidada llegara y consiguiera un 3.17 no fue una mejora incremental.
Fue un golpe sobre la mesa.
Totalmente.
Fue como si un nuevo contendiente subiera al ring y noqueara al campeón en el primer asalto.
Vaya.
O quizás, y es una imagen más precisa, como si un luchador de un arte marcial completamente nuevo,
entrara al ring.
Nadie sabía cómo contrarrestar sus movimientos.
Las GANs estaban diseñadas para pelear contra otras GANs.
Pero este modelo jugaba un juego diferente.
Uno más lento, más metódico.
Pero con un golpe final demoledor en términos de calidad de imagen.
El FIDI fue el titular.
La cifra que hizo que todo el mundo en el campo de la IA se sentara y leyera este paper con muchísima atención.
Y no se quedaron ahí, ¿verdad?
Porque a veces estos métodos funcionan muy bien.
También funcionan con imágenes pequeñas y sencillas, pero se desmoronan con algo más complejo.
Cierto.
El paper también menciona que en otro conjunto de datos, el ESUN,
con imágenes mucho más grandes de 256x256,
la calidad era similar a la de Progressive GAN.
Y esto es importante.
Importantísimo.
Porque Progressive GAN era uno de los modelos GAN más avanzados y respetados de la época.
Claro.
Y ese punto fue absolutamente crucial.
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.
Demostró que el método era escalable, que podía manejar la complejidad del mundo real.
Podían competir en las ligas mayores.
Exacto.
Poder decir, somos los mejores en esta métrica clave con imágenes pequeñas
y, además, igualamos la calidad de los mejores en imágenes grandes,
fue un doble golpe demoledor.
Hizo que la comunidad dejara de ver los modelos de difusión como una curiosidad
y empezara a verlos como el futuro.
Entonces, si recapitulamos, el paper no solo presentó un modelo,
con resultados espectaculares, sino que también parecía más robusto.
Pero aquí me surge una duda.
Si era tan bueno, ¿había alguna desventaja?
La había, claro.
Suena demasiado bueno para ser verdad.
Si el método era tan potente y la idea subyacente no era nueva,
¿por qué no se había popularizado antes?
¿Cuál era el truco?
Esa es la pregunta del millón.
Y la respuesta revela el gran problema de estos modelos en 2020.
A ver.
La estabilidad y la calidad.
Tenían un coste.
Y era un coste altísimo.
La velocidad de inferencia.
Es decir, el tiempo necesario para generar una sola imagen.
Ajá, el escultor era lento.
Lentísimo.
Una GAN, como el mago, hacía su truco en un solo paso
y te daba la imagen casi al instante.
El modelo de difusión necesitaba dar cientos, a veces miles,
de pequeños golpes de cincel.
Generar una sola imagen era un proceso computacionalmente carísimo.
Entiendo.
Este paper...
Demostró que la calidad obtenida valía la pena.
Pero el siguiente gran reto para toda la comunidad
fue precisamente cómo acelerar a ese escultor.
Claro.
Abrieron una puerta a una calidad superior.
Pero al otro lado había un proceso muy costoso.
Y me imagino que esto también pone en perspectiva
la otra gran ventaja que se suele citar.
La estabilidad en el entrenamiento, ¿no?
Por supuesto.
¿Por qué era tan importante escapar de las GANs en ese sentido?
Porque entrenar una GAN era,
y sigue siendo, un arte oscuro.
Una GAN se compone de dos redes que compiten.
Un generador que crea imágenes
y un discriminador que intenta distinguir las falsas de las reales.
Y tienen que estar en equilibrio.
Un equilibrio perfecto y muy delicado.
Si el discriminador es demasiado bueno, el generador nunca aprende.
Si el generador es demasiado bueno,
engaña fácilmente al discriminador y deja de mejorar.
Es un proceso muy, muy inestable.
¿Y qué problemas prácticos causa esa inestabilidad?
Pues, el más famoso es el colapso de modo.
Imagina que le pides a una GAN que genere caras de personas.
Pues a veces, la red se queda atascada
y solo aprende a generar un único tipo de cara.
Se olvida de toda la diversidad.
Vaya.
Conseguir que una GAN aprenda a generar un abanico amplio de imágenes
es increíblemente difícil.
Los modelos de difusión, aunque lentos, no tienen este problema.
Su aprendizaje es mucho más directo y predecible.
O sea, ¿qué es lo que hace la GAN?
¿Qué es lo que hace la GAN?
¿Qué es lo que hace la GAN?
¿Qué es lo que hace la GAN?
¿Qué es lo que hace la GAN?
¿Qué es lo que hace la GAN?
O sea, que no solo era mejor en los resultados,
sino que el camino para llegar a ellos era menos tortuoso para los investigadores.
Se eliminó una barrera de entrada enorme.
Precisamente.
Se democratizó, en cierto sentido,
el acceso a la generación de imágenes de altísima calidad.
Un laboratorio con los recursos computacionales necesarios
podía replicar estos resultados de forma fiable,
sin pelearse durante semanas con los caprichos de una GAN.
Y ese es un catalizador para el progreso.
Totalmente.
Cuando quitas fricción,
la innovación se acelera exponencialmente.
Conectemos entonces todos los puntos con el presente.
Tenemos un trabajo de 2020 que valida una técnica,
demuestra resultados de vanguardia,
ofrece un entrenamiento más estable.
Pero es lento.
¿Cómo se ve su legado hoy?
Su legado es total y absoluto.
Este paper es el antepasado directo,
el paciente cero de la explosión de IA generativa
que vimos a partir de finales de 2021.
O sea, ¿Dali 2?
¿Mi Journey?
¿Stable Diffusion?
Todas ellas.
Todas se basan en los principios de los modelos de difusión
que este trabajo validó de forma tan contundente.
Proporcionó el plano y la prueba de concepto.
Y la investigación posterior se centró en la velocidad.
Justo.
Toda la investigación de los años siguientes
se centró en resolver el problema que dejaron abierto.
Cómo hacer que el escultor trabaje más rápido.
Y los modelos que usamos hoy son la respuesta a esa pregunta.
Son descendientes directos de este trabajo,
pero optimizados para ser miles de veces más veloces.
La conclusión parece clara.
Este paper de 2020 no fue una mejora más,
sino un cambio de paradigma.
Demostró el inmenso potencial de una idea
que estaba en un segundo plano.
Y marcó la hoja de ruta para las herramientas
que hoy fascinan al mundo.
Exactamente.
Es un texto fundacional.
No se puede entender el estado del arte
de la generación de imágenes actual
sin reconocer el impacto sísmico de este trabajo.
Mostró un nuevo camino.
Y toda la comunidad científica, al ver los resultados,
decidió explorarlo en masa.
Y los frutos de esa exploración
son las herramientas que vemos todos los días.
Tal cual.
A ver, para terminar,
me gustaría proponer una última reflexión
que nos deja este trabajo.
Algo que va más allá de lo técnico.
A ver.
Este modelo, como explicabas,
aprende a crear orden y coherencia
partiendo del caos absoluto, del ruido.
Nos hace pensar en la propia naturaleza de la creatividad.
Es, en el fondo, una forma de encontrar una señal donde,
solo hay ruido.
¿De descubrir un patrón en la aleatoriedad?
Sí, de dar forma a lo informe.
Es una idea muy poderosa.
A menudo pensamos en la creatividad
como un destello que surge de la nada.
Pero quizás se parezca más a este proceso.
Un filtrado paciente y metódico que,
a partir de un mar de posibilidades caóticas,
va revelando poco a poco una estructura con significado.
Es una perspectiva fascinante, la verdad.
Lo es.
Y con esa idea cerramos el análisis de hoy.
Este ha sido el sexto paper de nuestra serie,
pero el viaje no termina aquí.
Mañana, en nuestra séptima entrega,
abordaremos otro documento que cambió las reglas del juego
de una forma completamente distinta,
esta vez en el mundo del lenguaje.
Otro texto clave.
Desde luego. No se lo pierdan.
Gracias por acompañarnos en este análisis en profundidad.
Ha sido un placer.
Hasta la próxima.
Y hasta aquí el episodio de hoy.
Muchas gracias por tu atención.
Esto es BIMPRAXIS.
Nos escuchamos en el próximo episodio.