E017_Redes Generativas Antagónicas (GANs)
Ep. 17

E017_Redes Generativas Antagónicas (GANs)

Episode description

🎙️ ¿Qué ocurre cuando enfrentas a dos inteligencias artificiales entre sí? En este episodio, analizamos el paper seminal que transformó el aprendizaje automático: ““Generative Adversarial Networks”” (2014). Descubre el fascinante marco propuesto por Ian Goodfellow y sus colaboradores, donde se entrena simultáneamente a dos modelos en un juego minimax de dos jugadores 🎮. Por un lado, un modelo generativo (G) intenta capturar la distribución de los datos para crear imitaciones perfectas 🎨; por el otro, un modelo discriminativo (D) actúa como un juez severo 🕵️‍♂️, calculando la probabilidad de que una muestra provenga de los datos reales o sea una falsificación creada por su rival. 💡 Acompáñanos a desgranar cómo este proceso adversarial entrena al sistema para que el generador aprenda a maximizar los errores del discriminador, utilizando perceptrones multicapa y backpropagation 🧠 sin necesidad de complejas cadenas de Markov. Si quieres entender la arquitectura matemática donde el equilibrio se alcanza cuando la IA ya no puede diferenciar la realidad de la ficción (llevando al discriminador a una probabilidad del 50%), ¡no te pierdas este episodio! 👇 Dale al play para comprender el origen teórico de las IAs generativas. Fuentes: • Generative Adversarial Networks (arXiv:1406.2661)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a la tercera entrega de nuestra serie especial, los artículos que cambiaron la historia de la IA.

0:42

Hoy vamos a meternos con un texto que, de verdad, no exagero si digo que marcó un antes y un después.

0:49

Nos sumergimos en el artículo de 2014, Generative Adversarial Networks, Redes Generativas Antagónicas, de Ian Goodfellow y un equipazo de investigadores.

0:59

Y hay que insistir en esto, ¿eh?

1:00

Este fue el momento en que la inteligencia artificial empezó a imaginar.

1:04

Fue la primera vez que vimos una capacidad real de creatividad visual, de generar algo nuevo que pareciera auténtico.

1:11

Para que nos entendamos todos, es el abuelo de los deepfakes, de mid-journey, de todo este universo de IA generativa de imágenes que hoy nos deja con la boca abierta.

1:20

Nuestra misión hoy es desgranar esa idea central, esa chispa que lo cambió todo.

1:25

A ver, vamos a ello.

1:26

Y es que la fecha lo dice todo.

1:29

El artículo se subió a arXiv, que es el repositorio de artículos científicos, el 10 de junio de 2014.

1:36

En la escala de la historia de la informática, eso es... vamos, es que fue la semana pasada.

1:41

Nos da una idea de la velocidad de vértigo a la que se ha movido todo desde entonces.

1:46

Pero lo que a mí me parece fascinante de este trabajo es que su genialidad no está en una fórmula matemática que solo entienden cinco personas en el mundo.

1:53

Al contrario, reside en un concepto increíblemente intuitivo, casi poético, y con una potencia descomunal.

2:01

Totalmente de acuerdo. La elegancia de la idea es lo que la hace tan potente.

2:05

De hecho, el propio nombre ya nos da una pista.

2:08

Redes generativas antagónicas.

2:11

La palabra antagónico tiene mucha fuerza, ¿eh? Suena a conflicto, a una partida de ajedrez o, no sé, a una novela de espías.

2:18

¿Qué significa exactamente aquí?

2:20

Pues mira, la analogía de los espías o de una partida de ajedrez es perfecta.

2:25

El propio resumen del artículo, el abstract, lo deja claro desde la primera frase.

2:30

Proponemos un nuevo marco para estimar modelos generativos a través de un proceso antagónico.

2:35

La clave es esa. En lugar de tener un solo modelo aprendiendo de un montón de datos,

2:40

que era lo habitual, la idea es enfrentar a dos modelos en un juego.

2:45

Aquí es donde la cosa se pone de verdad interesante.

2:47

Absolutamente. La analogía que el propio Goodfellow usó y que se ha hecho famosísima

2:52

es la del falsificador de arte y el detective de arte.

2:56

Imagina que tienes estos dos sistemas, que son dos redes neuronales.

3:00

Primero está el modelo generativo, la G.

3:02

G, vale.

3:03

Este es nuestro falsificador.

3:06

Su objetivo, según el texto, es capturar la distribución

3:10

de los datos. Dicho de forma más simple, si le enseñamos miles de cuadros de Rembrandt,

3:15

su trabajo es aprender la esencia de un Rembrandt para poder pintar un cuadro nuevo que parezca

3:21

auténtico.

3:22

Vale. Ese es el creador, el artista. ¿Y quién es su oponente en este juego?

3:28

Su oponente es el modelo discriminativo, la D, nuestro detective de arte. Su única

3:34

misión es estimar la probabilidad de que una muestra provenga de los datos de entrenamiento

3:39

reales y de los datos de entrenamiento reales.

3:40

En lugar de haber sido creada por G. O sea, le pones un cuadro delante y tiene

3:45

que decidir, ¿es un Rembrandt de verdad o es una falsificación de nuestro generador

3:50

G?

3:51

Espera, espera. Entonces, el objetivo del generador no es solo ser bueno, en abstracto,

3:57

sino engañar a este detective en concreto. Eso lo cambia todo. Porque si el detective

4:03

es un novato, el falsificador no tiene que esforzarse. Pero si el detective es el mayor

4:07

experto del mundo, el falsificador tiene que convertirse.

4:10

Tiene que convertirse en un genio absoluto para poder colársela.

4:13

Has dado en el clavo. Esa es la esencia de la dinámica. No se entrenan por separado,

4:19

sino en un bucle constante, competitivo. El detective D mejora al aprender a distinguir

4:25

las falsificaciones cada vez más buenas de G. Y aquí viene el gilo genial, la frase

4:30

clave del artículo sobre cómo se entrena G. Su objetivo es maximizar la probabilidad

4:37

de que D cometa un error.

4:39

Ah, claro.

4:40

Porque el falsificador no aprende a plintar Rembrandts estudiando solo a Rembrandt. Aprende

4:45

estudiando al detective. Su objetivo es explotar las debilidades del crítico.

4:50

Me parece una idea brillante. Es como decías, una carrera armamentística. El detective

4:55

mejora, así que el falsificador tiene que mejorar. El falsificador mejora, así que

5:00

el detective tiene que volverse aún más astuto.

5:04

Cada uno es el entrenador personal del otro.

5:07

Exacto. Pero esto me lleva a una pregunta.

5:09

¿En esta carrera quién gana, o es una carrera que no acaba nunca?

5:14

Ahí es donde entra la belleza de la teoría

5:16

de juegos, que lo sustenta todo. El artículo lo llama un juego minimax de dos jugadores.

5:23

No hace falta entrar en la ecuación. Pero la idea es que el discriminador D intenta

5:28

maximizar sus aciertos, y el generador G intenta minimizar los aciertos de D. Es un

5:34

tiralla floja matemático.

5:36

¿Un tiralla floja? ¿Y cuál es el punto de acción en este caso? De hecho, es extraordinario.

5:37

A continuación, ¿qué es el punto de acción? La definición significa que el tira y afloja

5:38

¿Y cuál es el punto de equilibrio? ¿A dónde se supone que llega esa lucha?

5:41

El punto final, teórico, el estado ideal, es lo más contraintuitivo y elegante de todo.

5:49

No gana ninguno. Se llega a un equilibrio perfecto, un empate técnico.

5:54

Y en ese punto, según el artículo, el generador G recupera perfectamente la distribución de los datos de entrenamiento.

6:02

Lo que significa que nuestro falsificador se ha convertido en un maestro.

6:06

Sus Rembrandts son indistinguibles de los originales. A todos los efectos, son perfectos.

6:13

Exacto. Y como consecuencia directa de eso, ocurre la segunda cosa.

6:19

El detective D, el experto mundial, queda completamente…

6:23

Inutilizado.

6:24

Inutilizado. Sí, ya no puede diferenciar lo real de lo falso.

6:29

El artículo lo expresa de forma muy precisa.

6:32

La probabilidad que asigne el discriminador es igual a un medio…

6:36

Un medio en todas partes. Un medio.

6:39

¿Te refieres a un 50%?

6:41

50%. 50-50. Sus decisiones son puro azar.

6:45

Como tirar una moneda al aire.

6:47

Justo.

6:47

Como lanzar una moneda.

6:49

Ante cualquier cuadro, ya sea real o falso, su cerebro experto le dice

6:53

Podría ser cualquiera de las dos. No tengo ni la más remota idea.

6:58

Es una paradoja increíble.

7:00

El triunfo del sistema es un empate.

7:02

Y la prueba de que hemos creado un generador perfecto es que su crítico…

7:06

…más duro se vuelve inútil.

7:08

Precisamente.

7:09

El objetivo nunca fue que el detective ganara, sino usarlo como una herramienta,

7:13

como una piedra de afilar, para llevar al generador a la maestría.

7:17

El discriminador es un medio para un fin.

7:20

Y cuando se alcanza ese fin, su incapacidad para decidir es la métrica del éxito.

7:25

Vale, la teoría es preciosa. Un empate del que nace la creatividad.

7:29

Pero suena casi demasiado bueno para ser verdad.

7:32

En la práctica, es fácil llegar a ese equilibrio tan perfecto.

7:35

¿Y esa es la pregunta?

7:36

Es la pregunta del Millén.

7:37

Y donde la elegancia de la teoría se topó con la cruda realidad.

7:41

Ese equilibrio es teóricamente hermoso, pero en la práctica es increíblemente difícil de alcanzar.

7:47

Es como intentar equilibrar un lápiz sobre su punta.

7:49

¿Y qué pasaba? ¿Qué significa que era difícil?

7:52

Pues que en los primeros años, el entrenamiento, la mayoría de las veces, simplemente colapsaba.

7:57

¿Qué significa que colapsaba? ¿Que el ordenador echaba humo?

8:00

No literalmente, pero casi.

8:02

El problema más famoso es el mode collapse.

8:05

O colapsaba en un unicornio.

8:06

¿Y qué significa el modo o tipo de resultado?

8:08

A ver.

8:09

Imagina que nuestro falsificador de Rembrandt descubre que hay un tipo de retrato que engaña al detective siempre.

8:14

En lugar de aprender a pintar toda la variedad de obras de Rembrandt, el generador se vuelve vago.

8:20

Se estanca y solo produce esa única imagen una y otra vez.

8:23

Claro. El sistema se rompe, el generador encuentra un truco y lo explota hasta el infinito.

8:29

Y el detective no es lo bastante bueno como para forzarle a salir de ahí.

8:33

Exacto.

8:34

Y ese fue el gran dolor de Camus.

8:36

La idea era perfecta, pero el entrenamiento era muy inestable.

8:43

Encontrar ese punto justo de equilibrio dinámico fue el verdadero arte.

8:47

Entiendo. Concepto brillante, pero difícil de domar.

8:51

Hablemos de la implementación.

8:53

Una gran idea no sirve de nada si necesitas un superordenador para ponerla en marcha.

8:58

¿Cómo lo hicieron?

8:59

Y este es el segundo pilar de la genialidad del artículo.

9:03

Y lo que explica por qué se adoptó tan rápido.

9:06

Lo fascinante aquí es que no necesitaron inventar un método de entrenamiento súper raro o carísimo.

9:13

El abstract lo dice claro.

9:15

Si G y D son perceptrones multicapa, el sistema puede ser entrenado con retropropagación.

9:22

Momento. Me estás diciendo que la idea era revolucionaria.

9:26

Pero que se podía montar con piezas que ya existían.

9:29

Perceptrones multicapa es una red neuronal normal.

9:32

Y retropropagación es el algoritmo con el que aprenden casi todas las...

9:36

... las redes desde los años ochenta.

9:38

Suena demasiado fácil.

9:40

Es que el truco no estaba en las piezas, sino en la arquitectura.

9:44

En cómo las conectaron.

9:46

Fue como si alguien dijera,

9:48

oye, con las ruedas y los motores que ya tenemos,

9:51

si los montamos de esta otra forma, podemos construir un avión.

9:56

Claro, la innovación no fue inventar el motor, sino el concepto del avión.

10:01

Eso es.

10:02

La comunidad ya dominaba la retropropagación.

10:04

Y de repente, este avión.

10:06

Este artículo les dice.

10:08

No tenéis que aprender nada nuevo.

10:10

Coged dos redes que ya sabéis construir y ponedlas a competir.

10:14

Eliminé una barrera de entrada gigantesca.

10:17

El artículo también menciona otro punto técnico que parece clave.

10:21

Cito.

10:22

No es necesidad de cadenas de Markov ni de redes de inferencia aproximada desenrolladas.

10:26

Esto suena muy denso, pero intuyo que es un dardo directo a los métodos de antes.

10:30

Totalmente.

10:31

Es un derechazo a la mandíbula de los modelos generativos de la época.

10:35

Modelos como las máquinas de Boltzmann eran un auténtico quebradero de cabeza.

10:41

Requerían procesos estadísticos muy complejos.

10:44

Eran lentos, computacionalmente carísimos y muy, muy inestables.

10:49

Eran como motores muy complejos, con muchas piezas que se podían romper.

10:53

Es una analogía perfecta.

10:55

El enfoque de las GANs era mucho más directo.

10:58

El aprendizaje fluye hacia atrás, desde el veredicto del detective hasta los parámetros del generador.

11:04

Todo con la retropropagación.

11:06

Era un diseño más limpio, más elegante.

11:08

Así que la idea era fácil de enchufar, pero un infierno de sintonizar.

11:12

La puerta de entrada era fácil, pero dominarlo era muy difícil.

11:16

Has dado en el clavo.

11:18

Esa dualidad definió la investigación en GANs durante años.

11:22

La simplicidad del marco hizo que miles de investigadores se lanzaran a experimentar.

11:27

Y fue esa experimentación masiva la que, con el tiempo, permitió descubrir los trucos para hacerlas más estéticas.

11:34

Estables y potentes.

11:36

Entonces, si recapitulamos.

11:38

El impacto de este artículo se sostiene sobre tres pilares.

11:42

Primero, un concepto casi filosófico.

11:44

La creatividad a través del conflicto.

11:47

El juego del falsificador y el detective.

11:50

Segundo, un objetivo teórico claro y elegante.

11:54

El equilibrio perfecto.

11:56

Ese empate donde nace la maestría.

11:58

Y tercero, una implementación práctica que usaba las herramientas que todo el mundo ya tenía.

12:04

Es la combinación perfecta de una idea profunda, una teoría sólida y una implementación factible.

12:10

Desde 2014, esta arquitectura ha sido el motor de la explosión de la IA generativa que hemos visto, sobre todo en lo visual.

12:17

La conexión con el presente es total.

12:19

Todo, desde los filtros artísticos de los móviles hasta los sistemas que generan vídeos a partir de una frase, le debe algo a esta idea de 2014.

12:27

Es el paciente cero de la imaginación artificial.

12:30

Absolutamente.

12:32

En esencia, lo que este artículo nos enseñó es a generar creatividad a través del conflicto dentro de una máquina.

12:39

Y es un concepto tan potente que trasciende la propia IA.

12:43

Esto plantea una pregunta importante.

12:45

A ver, ¿cuál?

12:46

¿Te refieres a si esto tiene implicaciones más allá de la tecnología?

12:49

Exactamente.

12:50

Si la creatividad artificial, al menos en este paradigma, surge de un conflicto interno, de una lucha entre dos fuerzas, ¿qué nos dice eso sobre la nuestra?

12:59

Es una gran pregunta.

13:00

Y creo que es la reflexión perfecta.

13:01

Es una reflexión perfecta para cerrar.

13:03

El artículo nos presenta un juego entre un creador y un crítico dentro de una máquina.

13:08

Y es inevitable pensar en el proceso creativo humano.

13:11

¿Cuánto de nuestra propia creatividad es en realidad un diálogo interno similar?

13:15

Una lucha entre esa parte de nosotros que genera ideas sin filtro, a veces salvajes, y esa otra parte, el crítico interno que las juzga, las cuestiona y las pule.

13:25

Forzando a la primera a mejorar, a ser más precisa, más original.

13:29

Quizás este proceso antagónico no es sólo un truco para una IA, sino un pilar fundamental de la propia creatividad.

13:36

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:01

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.