E018_AlphaGo: Anatomía de una Victoria (para la IA)

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a una nueva entrega de nuestra serie Los Papers que cambiaron la historia de la IA.

0:42

Hoy vamos a hablar de un juego, pero no de cualquier juego.

0:48

El Go no es como el ajedrez, ¿sabes? Con sus piezas, sus jerarquías, el objetivo de capturar al rey.

0:55

El Go es más, no sé, más orgánico, casi un arte. Poner piedras en un tablero para rodear territorio.

1:04

Parece simple, pero tiene una complejidad que de verdad desafía la comprensión.

1:08

Es que la palabra complejidad casi se queda corta. A ver, para que nos hagamos una idea del abismo que los separa de otros juegos.

1:16

En ajedrez, en una posición normal.

1:17

Un jugador tiene unas 35 jugadas posibles.

1:21

Más o menos, sí.

1:22

En Go, la media es de 250. Y esta diferencia, que ya parece grande, se convierte en un disparate cósmico cuando calculas el número total de partidas.

1:33

El número de configuraciones legales en un tablero de Go es mayor que el número de átomos que se estima que hay en el universo observable.

1:40

Es una cifra que es imposible de visualizar.

1:45

Y por eso, claro, el Go era el...

1:47

El santo grial de la inteligencia artificial en juegos. Era como el último bastión de la intuición humana.

1:53

En 2015, la comunidad de IA era casi unánime. Faltaba, como mínimo, otra década para que una máquina pudiera ganar a un campeón.

2:02

Claro. Se pensaba que la fuerza bruta, la estrategia que usó Deep Blue para ganar a Kasparov, aquí era, bueno, como intentar vaciar el océano con un dedal. No sirve de nada.

2:11

Exacto.

2:12

El problema no era de velocidad de cálculo, era de...

2:15

De juicio.

2:16

De intuición.

2:17

Como decías. Un jugador experto de Go no calcula millones de jugadas. Siente la posición. Reconoce patrones.

2:27

Tiene un instinto.

2:28

Eso es. Un instinto sobre qué zonas del tablero son prometedoras. Y claro, ¿cómo programas eso en una máquina? Pareció un problema intratable.

2:37

Pero esa predicción de una década saltó por los aires mucho antes. Hoy nos sumergimos en el documento que lo cambió todo.

2:45

El artículo de 2016 publicado en Nature.

2:47

Este es el paper que presentó al mundo a AlphaGo.

2:56

Y nuestra misión hoy es desgranar cómo lograron lo que parecía imposible. ¿Cuál fue la genialidad que les permitió crear algo parecido a una intuición artificial?

3:06

Vale, entremos en materia.

3:09

Si la fuerza bruta es inútil ante un problema de esta escala, ¿por dónde empiezas?

3:13

No puedes decirle a un ordenador, evalúa todas las posibilidades.

3:16

Es una tarea.

3:17

¿Eh? Infinita.

3:18

Claro. Y los creadores de AlphaGo tuvieron que renunciar a esa idea y pensar de una forma completamente distinta.

3:26

Y aquí es donde encontramos la primera gran idea, la que lo vertebra todo.

3:30

En lugar de buscar una única red neuronal gigantesca que lo hiciera todo, se dieron cuenta de que la inteligencia humana no funciona así.

3:38

Dividieron el problema en dos tareas que, en realidad, son muy humanas.

3:42

Una es el instinto rápido, casi un reflejo, y la otra es el juicio reposado.

3:47

La evaluación de la situación.

3:49

Y construyeron una arquitectura con dos cerebros especializados. Uno para cada tarea.

3:54

De acuerdo, dos cerebros. Vamos con el primero.

3:56

Cuando un jugador humano mira un tablero, no considera las 250 jugadas.

4:02

Su cerebro filtra automáticamente el 99% de ellas y se centra en un puñado que parecen prometedoras.

4:08

El primer cerebro de AlphaGo hace algo parecido.

4:11

Exactamente eso. Es la llamada red de políticas, la Policy Network.

4:16

¿Su única función?

4:17

Su única función es reducir la amplitud de la búsqueda.

4:19

La amplitud. Sí. Se le muestra una posición del tablero y, en lugar de analizarlo todo, la red actúa como un experto humano y dice

4:28

Olvida todo lo demás. De las 250 jugadas, estas cuatro o cinco son las únicas que merecen tu atención.

4:36

Su trabajo es podar el árbol de posibilidades de una forma drástica.

4:41

Responde a la pregunta. ¿Qué movimientos tienen sentido ahora mismo?

4:45

Entendido.

4:45

La red de políticas te da, digamos, un menú de opciones sensatas.

4:50

Pero eso es solo la mitad de la batalla, ¿no?

4:53

Porque entre esas cuatro o cinco buenas jugadas, una podría llevarte a la victoria y otra a una trampa sutil cinco turnos más tarde.

5:00

¿Cómo decide AlphaGo cuál de esas ramas del futuro es la mejor sin tener que explorarlas hasta el final?

5:06

Porque eso nos devolvería al problema de la complejidad infinita.

5:10

Ahí es donde entra el segundo cerebro, la red de valor, la Value Network.

5:15

Su función es reducir la profundidad de la búsqueda.

5:18

Esta red no necesita simular la partida hasta su conclusión.

5:23

En su lugar, hace algo que también es muy humano.

5:26

Mira una configuración del tablero, una foto fija y emite un juicio.

5:31

Estima la probabilidad de que un jugador gane desde esa posición.

5:35

Responde a la pregunta.

5:36

Sin pensar más allá, solo mirando el tablero como está, quién va ganando y por cuánto.

5:40

O sea que el sistema funciona en tándem.

5:43

La red de políticas dice, considera estos movimientos.

5:45

Y para cada uno de ellos, la red de valor dice, si haces este movimiento,

5:49

la posición resultante es un 62% favorable para ti.

5:54

Si haces este otro, es un 58%.

5:56

Precisamente.

5:57

Es una analogía que ellos mismos usan.

5:59

Es como tener un equipo de dos expertos aconsejándote.

6:03

Uno es el estratega creativo, el que tiene el instinto y te dice,

6:06

céntrate en estos tres o cuatro movimientos, son los únicos que tienen potencial.

6:10

El otro es el analista frío y calculador que,

6:13

para cada una de esas sugerencias,

6:15

usurra al oído un veredicto.

6:18

Esta posición es ganadora o, cuidado,

6:21

esta posición parece buena, pero a largo plazo es peligrosa.

6:24

Y esa combinación es lo que les permite evitar el océano de posibilidades.

6:28

Exacto.

6:29

En lugar de buscar a ciegas en un espacio infinito,

6:33

Alfago realiza una búsqueda mucho más dirigida,

6:36

más inteligente, guiada por estas dos intuiciones artificiales.

6:40

Y eso es fundamental para entender la diferencia con los programas anteriores.

6:44

Alfago evaluaba miles de veces menos posiciones que un programa de ajedrez como Deep Blue.

6:49

¿No ganaba por ser más rápido?

6:51

No. Ganaba por ser más listo.

6:53

Su búsqueda era más eficiente porque sus dos redes neuronales le permitían concentrar su atención computacional

6:59

sólo donde realmente importaba.

7:01

Fue, bueno, un cambio de paradigma total.

7:04

Vale, eso lo entiendo. La arquitectura es brillante.

7:08

Pero esa inteligencia, esa intuición de las redes tiene que venir de alguna parte.

7:13

No puedes implementarla de una sola manera.

7:14

encender una red neuronal y que sepa jugar algo? ¿Cómo se le enseña a un sistema a tener ese

7:20

instinto de gran maestro? Esa es la segunda parte genial de este paper. El proceso de

7:24

entrenamiento es casi tan importante como la arquitectura. Lo detallan en la figura 1 y es

7:29

un pipeline en tres etapas muy ingenioso que lleva al sistema de ser un mero imitador a convertirse

7:34

en un verdadero maestro. La primera fase es la más intuitiva, aprender de los humanos. Lo que

7:40

se conoce como aprendizaje supervisado. Supongo que le mostraron miles de partidas de grandes

7:45

maestros. Millones. Alimentaron a la red de políticas inicial con una base de datos de 30

7:50

millones de posiciones extraídas de partidas de alto nivel jugadas por humanos en el servidor

7:55

que allí es. El objetivo de la red era muy simple. Se le mostraba una posición y tenía que predecir

8:00

cuál sería el siguiente movimiento del experto humano. Básicamente, aprender a imitar. ¿Y qué

8:06

tal lo hizo? ¿Con qué precisión podía adivinar el movimiento de un maestro? Alcanzó

8:10

un nivel de aprendizaje supervisado. El objetivo de la red era muy simple. Se le mostraba una posición

8:10

con una precisión del 57 por ciento. Y esto puede no sonar espectacular, pero hay que ponerlo

8:15

en contexto. El mejor sistema anterior, el estado del arte en ese momento, estaba en un 44 por ciento.

8:22

Ah, es un santo enorme. Gigantesco. Un salto cualitativo. Demostró que las redes neuronales

8:29

profundas eran increíblemente buenas capturando los patrones sutiles del juego humano. En esta

8:34

fase, AlphaGo aprendió a jugar bien, a hacer movimientos que un humano consideraría sensatos.

8:40

Pero aquí me surge una duda. Imitar no es lo mismo que entender, y mucho menos que ganar. Un

8:47

imitador puede copiar los movimientos correctos, pero no entiende por qué son buenos. Podría ser

8:52

frágil ante una situación nueva que no estuviera en su base de datos. Una objeción perfecta. Y es

8:57

precisamente el problema que aborda la segunda fase del entrenamiento. Aprender a ganar. Para esto,

9:03

usaron aprendizaje por refuerzo. Reinforcement learning. Cogieron esa red ya entrenada para imitar y la

9:09

pusieron a jugar millones de partidas contra versiones de sí misma. Espera, jugando contra

9:15

sí misma. ¿Cómo funciona eso? Imagina dos copias de la red. Juegan una partida completa. Al final,

9:21

una gana y otra pierde. El sistema entonces recompensa a la red ganadora, reforzando las

9:27

decisiones que la llevaron a la victoria, y penaliza a la perdedora. Ah, claro. Y ahora,

9:33

repite ese proceso millones de veces. La red empieza a descubrir estrategias por sí sola.

9:38

El objetivo ya no es inmediato. La red empieza a descubrir estrategias por sí sola. El objetivo ya no es inmediato.

9:39

El objetivo ya no es imitar a un humano, sino encontrar cualquier secuencia de movimientos que

9:43

conduzca a la victoria. Y me imagino que, al jugar contra sí misma, puede explorar el juego de una

9:49

forma que ningún humano podría. Juega el equivalente a siglos de Go en cuestión de días. Es a trascender

9:55

el conocimiento humano. El resultado fue una nueva red de políticas, mucho más fuerte. Para que te

10:01

hagas una idea de su potencia, esta nueva red, jugando por pura intuición, sin usar ningún

10:06

algoritmo de búsqueda, ya ganaba el 85% de la victoria. El resultado fue una nueva red de políticas,

10:09

contra Pachi. Era uno de los programas de Go de código abierto más potentes de la época,

10:17

que realizaba 100,000 simulaciones por movimiento. AlphaGo, sin hacer ni una sola simulación,

10:22

ya era superior. Momento, eso es impresionante. Pero ¿no podría ser un engaño? Ganarle a otro

10:29

programa, por muy bueno que sea, es distinto a ganarle a la creatividad humana. No corría

10:35

el riesgo el sistema de aprender solo a explotar las debilidades de otras máquinas.

10:39

¿En lugar de desarrollar un entendimiento real? Esa es la pregunta del millón, y la que solo

10:46

podría responderse enfrentándolo a un humano. Pero antes de eso, faltaba la tercera y última

10:51

pieza del puzle. Entrenar al juez. A la red de valor. Para ello, usaron el tesoro de datos que

10:58

acababan de generar. Los millones de partidas de autojuego. Claro, ahora tenían una fuente de

11:04

datos perfecta. Para cualquier posición de esas partidas, sabían cuál había sido el resultado

11:09

final. Exactamente. Le mostraron a la red de valor millones de configuraciones del tablero y le

11:15

dijeron el resultado final. Así aprendió a mirar cualquier posición y estimar con una precisión

11:21

asombrosa la probabilidad de victoria. Pero aquí se toparon con un problema técnico muy sutil pero

11:26

crucial que mencionan en el paper. El sobreajuste. El overfitting. Que es cuando un modelo se aprende

11:33

los datos de memoria en lugar de aprender los patrones generales, ¿verdad? Sí. Las posiciones

11:38

consecutivas en una partida de datos de memoria son las que más se aprenden. Y eso es lo que

11:39

de go se parecen muchísimo. Si entrenas la red con todas ellas, tiende a memorizar secuencias. Para

11:46

evitarlo, hicieron algo muy inteligente. Crearon un nuevo conjunto de datos con 30 millones de

11:51

posiciones, pero tomando solo una posición al azar de cada partida. Ah, para que fueran

11:56

independientes. Eso es. Así forzaron a la red a aprender los principios subyacentes de una buena

12:02

posición, no a memorizar partidas. Increíble el nivel de detalle. Así que, recapitulando.

12:09

Aprende a imitar a los humanos. Segundo, se perfecciona jugando contra sí misma. Y tercero,

12:15

usa esas partidas para aprender a juzgar. El resultado es un sistema con una intuición

12:20

artificial pulidísima. Y llegó el momento de la verdad. Llegó el momento de ponerlo a prueba.

12:26

El elegido fue Fan Hui, el campeón europeo de go. Un jugador profesional dos dan. La partida

12:32

se celebró en secreto en octubre de 2015. Nadie sabía nada. El resultado fue una victoria aplastante.

12:39

Un 5 a 0 contra un campeón profesional. Tuvo que ser un shock. El propio artículo de Nature lo

12:48

subraya con una frase que ya es historia. Fue la primera vez que un programa de ordenador derrotaba

12:55

a un jugador profesional humano en el juego del go a tamaño completo. El hito que se creía a una

13:01

década de distancia acababa de ocurrir. Fue un terremoto. Pero para entender la magnitud es

13:08

fundamental desgranar por qué. ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué?

13:09

¿Por qué esto fue tan diferente de la victoria de Deep Blue contra Kasparov en el 97? Tecnológicamente

13:16

son hitos que casi pertenecen a universos distintos. Desglosemos esa diferencia porque me padece el

13:22

punto clave para entender la revolución de este paper. ¿Qué hacía Deep Blue que no hiciera

13:27

AlphaGo y viceversa? Bueno, Deep Blue era la cima de un paradigma. La fuerza bruta y el

13:32

conocimiento experto codificado. Su poder residía en un hardware especializado que evaluaba unos

13:39

millones de posiciones por segundo. Una bestia. Una bestia de cálculo. Totalmente. Y, muy

13:46

importante, su función de evaluación, el software que le decía si una posición era buena o mala,

13:51

estaba programada a mano, con miles de reglas creadas por grandes maestros de ajedrez. Su

13:57

conocimiento del ajedrez había sido insertado explícitamente por humanos. Mientras que AlphaGo

14:03

fue algo completamente distinto. Un cambio de paradigma total. No tenía conocimiento del

14:08

juego preprogramado. Nadie le dijo, esta formación de piedras es fuerte. Aprendió sus propias

14:14

estrategias de forma autónoma, a partir de los datos. Primero viendo partidas humanas, y luego,

14:20

y esto es lo más importante, superando ese conocimiento a través del autojuego. ¿Usó

14:25

algoritmas de propósito general? Exacto. Su enfoque no era ver más lejos por fuerza bruta,

14:31

sino ver mejor. Como dijimos, evaluaba miles de veces menos posiciones, pero lo hacía de forma

14:37

infinitamente más inteligente que el juego. ¿Qué hacía Deep Blue? No tenía conocimiento de

14:38

gracias a la intuición de sus redes. No era una máquina que calculaba más rápido que un humano.

14:43

Era una máquina que, por primera vez, parecía haber aprendido a entender un juego. Había

14:49

desarrollado un juicio propio. Exacto. Y por eso la victoria de AlphaGo no fue solo sobre un juego.

14:54

Demostró algo mucho más profundo. Demostró que la combinación de aprendizaje profundo,

14:59

aprendizaje por refuerzo y búsqueda inteligente podía resolver problemas de una complejidad

15:04

abrumadora. Problemas que hasta entonces considerábamos exclusivos de nuestro

15:08

intelecto. Y eso nos lleva a la gran pregunta. Más allá de los juegos, ¿qué significa esto para

15:13

el mundo real? Lo fascinante aquí, y lo que convierte a este paper en un pilar de la IA

15:18

moderna, es que este enfoque es increíblemente general. Esta arquitectura de aprender por

15:23

imitación y luego perfeccionarse por autoexperimentación tiene aplicaciones en

15:27

campos que nos cambian la vida. Piensa en el descubrimiento de fármacos. Claro. Puedes

15:31

entrenar una red de políticas para que sufiera moléculas candidatas y una red de valor para que

15:36

estime su eficacia. De hecho, DeepMind aplicó una filosofía muy similar años después para crear

15:42

AlphaFold, el sistema que resolvió el problema del plegamiento de proteínas. Un problema que la

15:49

biología arrastraba desde hacía 50 años. 50 años. O sea que el legado de AlphaGo no es una

15:54

máquina que juega bien algo. Es una receta, una metodología para atacar problemas complejos que

15:59

antes no sabíamos ni por dónde empezar. Desde la ciencia de materiales hasta la logística.

16:03

Precisamente. AlphaGo no cerró un capítulo en la historia de los juegos. Abrió una puerta inmensa

16:09

a la resolución de problemas en el mundo real, demostrando que la intuición ya no es un dominio

16:14

exclusivamente humano. Esta exploración de los cimientos de la IA moderna continúa. Mañana

16:19

nos adentraremos en otro paper que provocó un nuevo terremoto, esta vez en el mundo del

16:24

lenguaje. Language Models are Few Shot Learners. Este artículo que veremos mañana, el que presentó

16:33

en este episodio de hoy. Muchas gracias por tu atención. Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E018_AlphaGo: Anatomía de una Victoria (para la IA)

Episode description

Persons