E017_Redes Generativas Antagónicas (GANs)

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a la tercera entrega de nuestra serie especial, los artículos que cambiaron la historia de la IA.

0:42

Hoy vamos a meternos con un texto que, de verdad, no exagero si digo que marcó un antes y un después.

0:49

Nos sumergimos en el artículo de 2014, Generative Adversarial Networks, Redes Generativas Antagónicas, de Ian Goodfellow y un equipazo de investigadores.

0:59

Y hay que insistir en esto, ¿eh?

1:00

Este fue el momento en que la inteligencia artificial empezó a imaginar.

1:04

Fue la primera vez que vimos una capacidad real de creatividad visual, de generar algo nuevo que pareciera auténtico.

1:11

Para que nos entendamos todos, es el abuelo de los deepfakes, de mid-journey, de todo este universo de IA generativa de imágenes que hoy nos deja con la boca abierta.

1:20

Nuestra misión hoy es desgranar esa idea central, esa chispa que lo cambió todo.

1:25

A ver, vamos a ello.

1:26

Y es que la fecha lo dice todo.

1:29

El artículo se subió a arXiv, que es el repositorio de artículos científicos, el 10 de junio de 2014.

1:36

En la escala de la historia de la informática, eso es... vamos, es que fue la semana pasada.

1:41

Nos da una idea de la velocidad de vértigo a la que se ha movido todo desde entonces.

1:46

Pero lo que a mí me parece fascinante de este trabajo es que su genialidad no está en una fórmula matemática que solo entienden cinco personas en el mundo.

1:53

Al contrario, reside en un concepto increíblemente intuitivo, casi poético, y con una potencia descomunal.

2:01

Totalmente de acuerdo. La elegancia de la idea es lo que la hace tan potente.

2:05

De hecho, el propio nombre ya nos da una pista.

2:08

Redes generativas antagónicas.

2:11

La palabra antagónico tiene mucha fuerza, ¿eh? Suena a conflicto, a una partida de ajedrez o, no sé, a una novela de espías.

2:18

¿Qué significa exactamente aquí?

2:20

Pues mira, la analogía de los espías o de una partida de ajedrez es perfecta.

2:25

El propio resumen del artículo, el abstract, lo deja claro desde la primera frase.

2:30

Proponemos un nuevo marco para estimar modelos generativos a través de un proceso antagónico.

2:35

La clave es esa. En lugar de tener un solo modelo aprendiendo de un montón de datos,

2:40

que era lo habitual, la idea es enfrentar a dos modelos en un juego.

2:45

Aquí es donde la cosa se pone de verdad interesante.

2:47

Absolutamente. La analogía que el propio Goodfellow usó y que se ha hecho famosísima

2:52

es la del falsificador de arte y el detective de arte.

2:56

Imagina que tienes estos dos sistemas, que son dos redes neuronales.

3:00

Primero está el modelo generativo, la G.

3:02

G, vale.

3:03

Este es nuestro falsificador.

3:06

Su objetivo, según el texto, es capturar la distribución

3:10

de los datos. Dicho de forma más simple, si le enseñamos miles de cuadros de Rembrandt,

3:15

su trabajo es aprender la esencia de un Rembrandt para poder pintar un cuadro nuevo que parezca

3:21

auténtico.

3:22

Vale. Ese es el creador, el artista. ¿Y quién es su oponente en este juego?

3:28

Su oponente es el modelo discriminativo, la D, nuestro detective de arte. Su única

3:34

misión es estimar la probabilidad de que una muestra provenga de los datos de entrenamiento

3:39

reales y de los datos de entrenamiento reales.

3:40

En lugar de haber sido creada por G. O sea, le pones un cuadro delante y tiene

3:45

que decidir, ¿es un Rembrandt de verdad o es una falsificación de nuestro generador

3:50

G?

3:51

Espera, espera. Entonces, el objetivo del generador no es solo ser bueno, en abstracto,

3:57

sino engañar a este detective en concreto. Eso lo cambia todo. Porque si el detective

4:03

es un novato, el falsificador no tiene que esforzarse. Pero si el detective es el mayor

4:07

experto del mundo, el falsificador tiene que convertirse.

4:10

Tiene que convertirse en un genio absoluto para poder colársela.

4:13

Has dado en el clavo. Esa es la esencia de la dinámica. No se entrenan por separado,

4:19

sino en un bucle constante, competitivo. El detective D mejora al aprender a distinguir

4:25

las falsificaciones cada vez más buenas de G. Y aquí viene el gilo genial, la frase

4:30

clave del artículo sobre cómo se entrena G. Su objetivo es maximizar la probabilidad

4:37

de que D cometa un error.

4:39

Ah, claro.

4:40

Porque el falsificador no aprende a plintar Rembrandts estudiando solo a Rembrandt. Aprende

4:45

estudiando al detective. Su objetivo es explotar las debilidades del crítico.

4:50

Me parece una idea brillante. Es como decías, una carrera armamentística. El detective

4:55

mejora, así que el falsificador tiene que mejorar. El falsificador mejora, así que

5:00

el detective tiene que volverse aún más astuto.

5:04

Cada uno es el entrenador personal del otro.

5:07

Exacto. Pero esto me lleva a una pregunta.

5:09

¿En esta carrera quién gana, o es una carrera que no acaba nunca?

5:14

Ahí es donde entra la belleza de la teoría

5:16

de juegos, que lo sustenta todo. El artículo lo llama un juego minimax de dos jugadores.

5:23

No hace falta entrar en la ecuación. Pero la idea es que el discriminador D intenta

5:28

maximizar sus aciertos, y el generador G intenta minimizar los aciertos de D. Es un

5:34

tiralla floja matemático.

5:36

¿Un tiralla floja? ¿Y cuál es el punto de acción en este caso? De hecho, es extraordinario.

5:37

A continuación, ¿qué es el punto de acción? La definición significa que el tira y afloja

5:38

¿Y cuál es el punto de equilibrio? ¿A dónde se supone que llega esa lucha?

5:41

El punto final, teórico, el estado ideal, es lo más contraintuitivo y elegante de todo.

5:49

No gana ninguno. Se llega a un equilibrio perfecto, un empate técnico.

5:54

Y en ese punto, según el artículo, el generador G recupera perfectamente la distribución de los datos de entrenamiento.

6:02

Lo que significa que nuestro falsificador se ha convertido en un maestro.

6:06

Sus Rembrandts son indistinguibles de los originales. A todos los efectos, son perfectos.

6:13

Exacto. Y como consecuencia directa de eso, ocurre la segunda cosa.

6:19

El detective D, el experto mundial, queda completamente…

6:23

Inutilizado.

6:24

Inutilizado. Sí, ya no puede diferenciar lo real de lo falso.

6:29

El artículo lo expresa de forma muy precisa.

6:32

La probabilidad que asigne el discriminador es igual a un medio…

6:36

Un medio en todas partes. Un medio.

6:39

¿Te refieres a un 50%?

6:41

50%. 50-50. Sus decisiones son puro azar.

6:45

Como tirar una moneda al aire.

6:47

Justo.

6:47

Como lanzar una moneda.

6:49

Ante cualquier cuadro, ya sea real o falso, su cerebro experto le dice

6:53

Podría ser cualquiera de las dos. No tengo ni la más remota idea.

6:58

Es una paradoja increíble.

7:00

El triunfo del sistema es un empate.

7:02

Y la prueba de que hemos creado un generador perfecto es que su crítico…

7:06

…más duro se vuelve inútil.

7:08

Precisamente.

7:09

El objetivo nunca fue que el detective ganara, sino usarlo como una herramienta,

7:13

como una piedra de afilar, para llevar al generador a la maestría.

7:17

El discriminador es un medio para un fin.

7:20

Y cuando se alcanza ese fin, su incapacidad para decidir es la métrica del éxito.

7:25

Vale, la teoría es preciosa. Un empate del que nace la creatividad.

7:29

Pero suena casi demasiado bueno para ser verdad.

7:32

En la práctica, es fácil llegar a ese equilibrio tan perfecto.

7:35

¿Y esa es la pregunta?

7:36

Es la pregunta del Millén.

7:37

Y donde la elegancia de la teoría se topó con la cruda realidad.

7:41

Ese equilibrio es teóricamente hermoso, pero en la práctica es increíblemente difícil de alcanzar.

7:47

Es como intentar equilibrar un lápiz sobre su punta.

7:49

¿Y qué pasaba? ¿Qué significa que era difícil?

7:52

Pues que en los primeros años, el entrenamiento, la mayoría de las veces, simplemente colapsaba.

7:57

¿Qué significa que colapsaba? ¿Que el ordenador echaba humo?

8:00

No literalmente, pero casi.

8:02

El problema más famoso es el mode collapse.

8:05

O colapsaba en un unicornio.

8:06

¿Y qué significa el modo o tipo de resultado?

8:08

A ver.

8:09

Imagina que nuestro falsificador de Rembrandt descubre que hay un tipo de retrato que engaña al detective siempre.

8:14

En lugar de aprender a pintar toda la variedad de obras de Rembrandt, el generador se vuelve vago.

8:20

Se estanca y solo produce esa única imagen una y otra vez.

8:23

Claro. El sistema se rompe, el generador encuentra un truco y lo explota hasta el infinito.

8:29

Y el detective no es lo bastante bueno como para forzarle a salir de ahí.

8:33

Exacto.

8:34

Y ese fue el gran dolor de Camus.

8:36

La idea era perfecta, pero el entrenamiento era muy inestable.

8:43

Encontrar ese punto justo de equilibrio dinámico fue el verdadero arte.

8:47

Entiendo. Concepto brillante, pero difícil de domar.

8:51

Hablemos de la implementación.

8:53

Una gran idea no sirve de nada si necesitas un superordenador para ponerla en marcha.

8:58

¿Cómo lo hicieron?

8:59

Y este es el segundo pilar de la genialidad del artículo.

9:03

Y lo que explica por qué se adoptó tan rápido.

9:06

Lo fascinante aquí es que no necesitaron inventar un método de entrenamiento súper raro o carísimo.

9:13

El abstract lo dice claro.

9:15

Si G y D son perceptrones multicapa, el sistema puede ser entrenado con retropropagación.

9:22

Momento. Me estás diciendo que la idea era revolucionaria.

9:26

Pero que se podía montar con piezas que ya existían.

9:29

Perceptrones multicapa es una red neuronal normal.

9:32

Y retropropagación es el algoritmo con el que aprenden casi todas las...

9:36

... las redes desde los años ochenta.

9:38

Suena demasiado fácil.

9:40

Es que el truco no estaba en las piezas, sino en la arquitectura.

9:44

En cómo las conectaron.

9:46

Fue como si alguien dijera,

9:48

oye, con las ruedas y los motores que ya tenemos,

9:51

si los montamos de esta otra forma, podemos construir un avión.

9:56

Claro, la innovación no fue inventar el motor, sino el concepto del avión.

10:01

Eso es.

10:02

La comunidad ya dominaba la retropropagación.

10:04

Y de repente, este avión.

10:06

Este artículo les dice.

10:08

No tenéis que aprender nada nuevo.

10:10

Coged dos redes que ya sabéis construir y ponedlas a competir.

10:14

Eliminé una barrera de entrada gigantesca.

10:17

El artículo también menciona otro punto técnico que parece clave.

10:21

Cito.

10:22

No es necesidad de cadenas de Markov ni de redes de inferencia aproximada desenrolladas.

10:26

Esto suena muy denso, pero intuyo que es un dardo directo a los métodos de antes.

10:30

Totalmente.

10:31

Es un derechazo a la mandíbula de los modelos generativos de la época.

10:35

Modelos como las máquinas de Boltzmann eran un auténtico quebradero de cabeza.

10:41

Requerían procesos estadísticos muy complejos.

10:44

Eran lentos, computacionalmente carísimos y muy, muy inestables.

10:49

Eran como motores muy complejos, con muchas piezas que se podían romper.

10:53

Es una analogía perfecta.

10:55

El enfoque de las GANs era mucho más directo.

10:58

El aprendizaje fluye hacia atrás, desde el veredicto del detective hasta los parámetros del generador.

11:04

Todo con la retropropagación.

11:06

Era un diseño más limpio, más elegante.

11:08

Así que la idea era fácil de enchufar, pero un infierno de sintonizar.

11:12

La puerta de entrada era fácil, pero dominarlo era muy difícil.

11:16

Has dado en el clavo.

11:18

Esa dualidad definió la investigación en GANs durante años.

11:22

La simplicidad del marco hizo que miles de investigadores se lanzaran a experimentar.

11:27

Y fue esa experimentación masiva la que, con el tiempo, permitió descubrir los trucos para hacerlas más estéticas.

11:34

Estables y potentes.

11:36

Entonces, si recapitulamos.

11:38

El impacto de este artículo se sostiene sobre tres pilares.

11:42

Primero, un concepto casi filosófico.

11:44

La creatividad a través del conflicto.

11:47

El juego del falsificador y el detective.

11:50

Segundo, un objetivo teórico claro y elegante.

11:54

El equilibrio perfecto.

11:56

Ese empate donde nace la maestría.

11:58

Y tercero, una implementación práctica que usaba las herramientas que todo el mundo ya tenía.

12:04

Es la combinación perfecta de una idea profunda, una teoría sólida y una implementación factible.

12:10

Desde 2014, esta arquitectura ha sido el motor de la explosión de la IA generativa que hemos visto, sobre todo en lo visual.

12:17

La conexión con el presente es total.

12:19

Todo, desde los filtros artísticos de los móviles hasta los sistemas que generan vídeos a partir de una frase, le debe algo a esta idea de 2014.

12:27

Es el paciente cero de la imaginación artificial.

12:30

Absolutamente.

12:32

En esencia, lo que este artículo nos enseñó es a generar creatividad a través del conflicto dentro de una máquina.

12:39

Y es un concepto tan potente que trasciende la propia IA.

12:43

Esto plantea una pregunta importante.

12:45

A ver, ¿cuál?

12:46

¿Te refieres a si esto tiene implicaciones más allá de la tecnología?

12:49

Exactamente.

12:50

Si la creatividad artificial, al menos en este paradigma, surge de un conflicto interno, de una lucha entre dos fuerzas, ¿qué nos dice eso sobre la nuestra?

12:59

Es una gran pregunta.

13:00

Y creo que es la reflexión perfecta.

13:01

Es una reflexión perfecta para cerrar.

13:03

El artículo nos presenta un juego entre un creador y un crítico dentro de una máquina.

13:08

Y es inevitable pensar en el proceso creativo humano.

13:11

¿Cuánto de nuestra propia creatividad es en realidad un diálogo interno similar?

13:15

Una lucha entre esa parte de nosotros que genera ideas sin filtro, a veces salvajes, y esa otra parte, el crítico interno que las juzga, las cuestiona y las pule.

13:25

Forzando a la primera a mejorar, a ser más precisa, más original.

13:29

Quizás este proceso antagónico no es sólo un truco para una IA, sino un pilar fundamental de la propia creatividad.

13:36

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:01

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E017_Redes Generativas Antagónicas (GANs)

Episode description

Persons