E018_AlphaGo: Anatomía de una Victoria (para la IA)
Ep. 18

E018_AlphaGo: Anatomía de una Victoria (para la IA)

Episode description

¿Te imaginas una máquina capaz de desarrollar algo parecido a la intuición humana? 🧠 Durante décadas, el antiguo juego del Go ⚫⚪ fue considerado el “Everest” de la inteligencia artificial, un desafío que se creía imposible de vencer mediante la fuerza bruta debido a su inmensidad matemática (¡más posiciones posibles que átomos en el universo!). En este episodio, exploramos la historia de AlphaGo, el programa que rompió todos los pronósticos al derrotar al campeón europeo Fan Hui por 5 a 0 🏆, logrando un hito que los expertos situaban al menos a una década de distancia. Descubre la fascinante arquitectura técnica que lo hizo posible: una combinación híbrida de Redes Neuronales Profundas (que seleccionan movimientos y evalúan posiciones como un experto) 🕸️ y el algoritmo de Árbol de Búsqueda Monte Carlo (MCTS) 🌲. Analizaremos cómo este sistema no se limitó a calcular, sino que aprendió jugando millones de partidas contra sí mismo mediante aprendizaje por refuerzo 🔄, alcanzando una tasa de victoria del 99.8% contra otros programas de vanguardia. ¡Dale al play ▶️ y acompáñanos a entender el momento exacto en que la IA dejó de simplemente procesar datos para empezar a “entender” el juego! 🚀 Fuentes: • Paper original en Nature: Mastering the game of Go with deep neural networks and tree search • Artículo sobre el Árbol de búsqueda Monte Carlo (Wikipedia)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a una nueva entrega de nuestra serie Los Papers que cambiaron la historia de la IA.

0:42

Hoy vamos a hablar de un juego, pero no de cualquier juego.

0:48

El Go no es como el ajedrez, ¿sabes? Con sus piezas, sus jerarquías, el objetivo de capturar al rey.

0:55

El Go es más, no sé, más orgánico, casi un arte. Poner piedras en un tablero para rodear territorio.

1:04

Parece simple, pero tiene una complejidad que de verdad desafía la comprensión.

1:08

Es que la palabra complejidad casi se queda corta. A ver, para que nos hagamos una idea del abismo que los separa de otros juegos.

1:16

En ajedrez, en una posición normal.

1:17

Un jugador tiene unas 35 jugadas posibles.

1:21

Más o menos, sí.

1:22

En Go, la media es de 250. Y esta diferencia, que ya parece grande, se convierte en un disparate cósmico cuando calculas el número total de partidas.

1:33

El número de configuraciones legales en un tablero de Go es mayor que el número de átomos que se estima que hay en el universo observable.

1:40

Es una cifra que es imposible de visualizar.

1:45

Y por eso, claro, el Go era el...

1:47

El santo grial de la inteligencia artificial en juegos. Era como el último bastión de la intuición humana.

1:53

En 2015, la comunidad de IA era casi unánime. Faltaba, como mínimo, otra década para que una máquina pudiera ganar a un campeón.

2:02

Claro. Se pensaba que la fuerza bruta, la estrategia que usó Deep Blue para ganar a Kasparov, aquí era, bueno, como intentar vaciar el océano con un dedal. No sirve de nada.

2:11

Exacto.

2:12

El problema no era de velocidad de cálculo, era de...

2:15

De juicio.

2:16

De intuición.

2:17

Como decías. Un jugador experto de Go no calcula millones de jugadas. Siente la posición. Reconoce patrones.

2:27

Tiene un instinto.

2:28

Eso es. Un instinto sobre qué zonas del tablero son prometedoras. Y claro, ¿cómo programas eso en una máquina? Pareció un problema intratable.

2:37

Pero esa predicción de una década saltó por los aires mucho antes. Hoy nos sumergimos en el documento que lo cambió todo.

2:45

El artículo de 2016 publicado en Nature.

2:47

Este es el paper que presentó al mundo a AlphaGo.

2:56

Y nuestra misión hoy es desgranar cómo lograron lo que parecía imposible. ¿Cuál fue la genialidad que les permitió crear algo parecido a una intuición artificial?

3:06

Vale, entremos en materia.

3:09

Si la fuerza bruta es inútil ante un problema de esta escala, ¿por dónde empiezas?

3:13

No puedes decirle a un ordenador, evalúa todas las posibilidades.

3:16

Es una tarea.

3:17

¿Eh? Infinita.

3:18

Claro. Y los creadores de AlphaGo tuvieron que renunciar a esa idea y pensar de una forma completamente distinta.

3:26

Y aquí es donde encontramos la primera gran idea, la que lo vertebra todo.

3:30

En lugar de buscar una única red neuronal gigantesca que lo hiciera todo, se dieron cuenta de que la inteligencia humana no funciona así.

3:38

Dividieron el problema en dos tareas que, en realidad, son muy humanas.

3:42

Una es el instinto rápido, casi un reflejo, y la otra es el juicio reposado.

3:47

La evaluación de la situación.

3:49

Y construyeron una arquitectura con dos cerebros especializados. Uno para cada tarea.

3:54

De acuerdo, dos cerebros. Vamos con el primero.

3:56

Cuando un jugador humano mira un tablero, no considera las 250 jugadas.

4:02

Su cerebro filtra automáticamente el 99% de ellas y se centra en un puñado que parecen prometedoras.

4:08

El primer cerebro de AlphaGo hace algo parecido.

4:11

Exactamente eso. Es la llamada red de políticas, la Policy Network.

4:16

¿Su única función?

4:17

Su única función es reducir la amplitud de la búsqueda.

4:19

La amplitud. Sí. Se le muestra una posición del tablero y, en lugar de analizarlo todo, la red actúa como un experto humano y dice

4:28

Olvida todo lo demás. De las 250 jugadas, estas cuatro o cinco son las únicas que merecen tu atención.

4:36

Su trabajo es podar el árbol de posibilidades de una forma drástica.

4:41

Responde a la pregunta. ¿Qué movimientos tienen sentido ahora mismo?

4:45

Entendido.

4:45

La red de políticas te da, digamos, un menú de opciones sensatas.

4:50

Pero eso es solo la mitad de la batalla, ¿no?

4:53

Porque entre esas cuatro o cinco buenas jugadas, una podría llevarte a la victoria y otra a una trampa sutil cinco turnos más tarde.

5:00

¿Cómo decide AlphaGo cuál de esas ramas del futuro es la mejor sin tener que explorarlas hasta el final?

5:06

Porque eso nos devolvería al problema de la complejidad infinita.

5:10

Ahí es donde entra el segundo cerebro, la red de valor, la Value Network.

5:15

Su función es reducir la profundidad de la búsqueda.

5:18

Esta red no necesita simular la partida hasta su conclusión.

5:23

En su lugar, hace algo que también es muy humano.

5:26

Mira una configuración del tablero, una foto fija y emite un juicio.

5:31

Estima la probabilidad de que un jugador gane desde esa posición.

5:35

Responde a la pregunta.

5:36

Sin pensar más allá, solo mirando el tablero como está, quién va ganando y por cuánto.

5:40

O sea que el sistema funciona en tándem.

5:43

La red de políticas dice, considera estos movimientos.

5:45

Y para cada uno de ellos, la red de valor dice, si haces este movimiento,

5:49

la posición resultante es un 62% favorable para ti.

5:54

Si haces este otro, es un 58%.

5:56

Precisamente.

5:57

Es una analogía que ellos mismos usan.

5:59

Es como tener un equipo de dos expertos aconsejándote.

6:03

Uno es el estratega creativo, el que tiene el instinto y te dice,

6:06

céntrate en estos tres o cuatro movimientos, son los únicos que tienen potencial.

6:10

El otro es el analista frío y calculador que,

6:13

para cada una de esas sugerencias,

6:15

usurra al oído un veredicto.

6:18

Esta posición es ganadora o, cuidado,

6:21

esta posición parece buena, pero a largo plazo es peligrosa.

6:24

Y esa combinación es lo que les permite evitar el océano de posibilidades.

6:28

Exacto.

6:29

En lugar de buscar a ciegas en un espacio infinito,

6:33

Alfago realiza una búsqueda mucho más dirigida,

6:36

más inteligente, guiada por estas dos intuiciones artificiales.

6:40

Y eso es fundamental para entender la diferencia con los programas anteriores.

6:44

Alfago evaluaba miles de veces menos posiciones que un programa de ajedrez como Deep Blue.

6:49

¿No ganaba por ser más rápido?

6:51

No. Ganaba por ser más listo.

6:53

Su búsqueda era más eficiente porque sus dos redes neuronales le permitían concentrar su atención computacional

6:59

sólo donde realmente importaba.

7:01

Fue, bueno, un cambio de paradigma total.

7:04

Vale, eso lo entiendo. La arquitectura es brillante.

7:08

Pero esa inteligencia, esa intuición de las redes tiene que venir de alguna parte.

7:13

No puedes implementarla de una sola manera.

7:14

encender una red neuronal y que sepa jugar algo? ¿Cómo se le enseña a un sistema a tener ese

7:20

instinto de gran maestro? Esa es la segunda parte genial de este paper. El proceso de

7:24

entrenamiento es casi tan importante como la arquitectura. Lo detallan en la figura 1 y es

7:29

un pipeline en tres etapas muy ingenioso que lleva al sistema de ser un mero imitador a convertirse

7:34

en un verdadero maestro. La primera fase es la más intuitiva, aprender de los humanos. Lo que

7:40

se conoce como aprendizaje supervisado. Supongo que le mostraron miles de partidas de grandes

7:45

maestros. Millones. Alimentaron a la red de políticas inicial con una base de datos de 30

7:50

millones de posiciones extraídas de partidas de alto nivel jugadas por humanos en el servidor

7:55

que allí es. El objetivo de la red era muy simple. Se le mostraba una posición y tenía que predecir

8:00

cuál sería el siguiente movimiento del experto humano. Básicamente, aprender a imitar. ¿Y qué

8:06

tal lo hizo? ¿Con qué precisión podía adivinar el movimiento de un maestro? Alcanzó

8:10

un nivel de aprendizaje supervisado. El objetivo de la red era muy simple. Se le mostraba una posición

8:10

con una precisión del 57 por ciento. Y esto puede no sonar espectacular, pero hay que ponerlo

8:15

en contexto. El mejor sistema anterior, el estado del arte en ese momento, estaba en un 44 por ciento.

8:22

Ah, es un santo enorme. Gigantesco. Un salto cualitativo. Demostró que las redes neuronales

8:29

profundas eran increíblemente buenas capturando los patrones sutiles del juego humano. En esta

8:34

fase, AlphaGo aprendió a jugar bien, a hacer movimientos que un humano consideraría sensatos.

8:40

Pero aquí me surge una duda. Imitar no es lo mismo que entender, y mucho menos que ganar. Un

8:47

imitador puede copiar los movimientos correctos, pero no entiende por qué son buenos. Podría ser

8:52

frágil ante una situación nueva que no estuviera en su base de datos. Una objeción perfecta. Y es

8:57

precisamente el problema que aborda la segunda fase del entrenamiento. Aprender a ganar. Para esto,

9:03

usaron aprendizaje por refuerzo. Reinforcement learning. Cogieron esa red ya entrenada para imitar y la

9:09

pusieron a jugar millones de partidas contra versiones de sí misma. Espera, jugando contra

9:15

sí misma. ¿Cómo funciona eso? Imagina dos copias de la red. Juegan una partida completa. Al final,

9:21

una gana y otra pierde. El sistema entonces recompensa a la red ganadora, reforzando las

9:27

decisiones que la llevaron a la victoria, y penaliza a la perdedora. Ah, claro. Y ahora,

9:33

repite ese proceso millones de veces. La red empieza a descubrir estrategias por sí sola.

9:38

El objetivo ya no es inmediato. La red empieza a descubrir estrategias por sí sola. El objetivo ya no es inmediato.

9:39

El objetivo ya no es imitar a un humano, sino encontrar cualquier secuencia de movimientos que

9:43

conduzca a la victoria. Y me imagino que, al jugar contra sí misma, puede explorar el juego de una

9:49

forma que ningún humano podría. Juega el equivalente a siglos de Go en cuestión de días. Es a trascender

9:55

el conocimiento humano. El resultado fue una nueva red de políticas, mucho más fuerte. Para que te

10:01

hagas una idea de su potencia, esta nueva red, jugando por pura intuición, sin usar ningún

10:06

algoritmo de búsqueda, ya ganaba el 85% de la victoria. El resultado fue una nueva red de políticas,

10:09

contra Pachi. Era uno de los programas de Go de código abierto más potentes de la época,

10:17

que realizaba 100,000 simulaciones por movimiento. AlphaGo, sin hacer ni una sola simulación,

10:22

ya era superior. Momento, eso es impresionante. Pero ¿no podría ser un engaño? Ganarle a otro

10:29

programa, por muy bueno que sea, es distinto a ganarle a la creatividad humana. No corría

10:35

el riesgo el sistema de aprender solo a explotar las debilidades de otras máquinas.

10:39

¿En lugar de desarrollar un entendimiento real? Esa es la pregunta del millón, y la que solo

10:46

podría responderse enfrentándolo a un humano. Pero antes de eso, faltaba la tercera y última

10:51

pieza del puzle. Entrenar al juez. A la red de valor. Para ello, usaron el tesoro de datos que

10:58

acababan de generar. Los millones de partidas de autojuego. Claro, ahora tenían una fuente de

11:04

datos perfecta. Para cualquier posición de esas partidas, sabían cuál había sido el resultado

11:09

final. Exactamente. Le mostraron a la red de valor millones de configuraciones del tablero y le

11:15

dijeron el resultado final. Así aprendió a mirar cualquier posición y estimar con una precisión

11:21

asombrosa la probabilidad de victoria. Pero aquí se toparon con un problema técnico muy sutil pero

11:26

crucial que mencionan en el paper. El sobreajuste. El overfitting. Que es cuando un modelo se aprende

11:33

los datos de memoria en lugar de aprender los patrones generales, ¿verdad? Sí. Las posiciones

11:38

consecutivas en una partida de datos de memoria son las que más se aprenden. Y eso es lo que

11:39

de go se parecen muchísimo. Si entrenas la red con todas ellas, tiende a memorizar secuencias. Para

11:46

evitarlo, hicieron algo muy inteligente. Crearon un nuevo conjunto de datos con 30 millones de

11:51

posiciones, pero tomando solo una posición al azar de cada partida. Ah, para que fueran

11:56

independientes. Eso es. Así forzaron a la red a aprender los principios subyacentes de una buena

12:02

posición, no a memorizar partidas. Increíble el nivel de detalle. Así que, recapitulando.

12:09

Aprende a imitar a los humanos. Segundo, se perfecciona jugando contra sí misma. Y tercero,

12:15

usa esas partidas para aprender a juzgar. El resultado es un sistema con una intuición

12:20

artificial pulidísima. Y llegó el momento de la verdad. Llegó el momento de ponerlo a prueba.

12:26

El elegido fue Fan Hui, el campeón europeo de go. Un jugador profesional dos dan. La partida

12:32

se celebró en secreto en octubre de 2015. Nadie sabía nada. El resultado fue una victoria aplastante.

12:39

Un 5 a 0 contra un campeón profesional. Tuvo que ser un shock. El propio artículo de Nature lo

12:48

subraya con una frase que ya es historia. Fue la primera vez que un programa de ordenador derrotaba

12:55

a un jugador profesional humano en el juego del go a tamaño completo. El hito que se creía a una

13:01

década de distancia acababa de ocurrir. Fue un terremoto. Pero para entender la magnitud es

13:08

fundamental desgranar por qué. ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué?

13:09

¿Por qué esto fue tan diferente de la victoria de Deep Blue contra Kasparov en el 97? Tecnológicamente

13:16

son hitos que casi pertenecen a universos distintos. Desglosemos esa diferencia porque me padece el

13:22

punto clave para entender la revolución de este paper. ¿Qué hacía Deep Blue que no hiciera

13:27

AlphaGo y viceversa? Bueno, Deep Blue era la cima de un paradigma. La fuerza bruta y el

13:32

conocimiento experto codificado. Su poder residía en un hardware especializado que evaluaba unos

13:39

millones de posiciones por segundo. Una bestia. Una bestia de cálculo. Totalmente. Y, muy

13:46

importante, su función de evaluación, el software que le decía si una posición era buena o mala,

13:51

estaba programada a mano, con miles de reglas creadas por grandes maestros de ajedrez. Su

13:57

conocimiento del ajedrez había sido insertado explícitamente por humanos. Mientras que AlphaGo

14:03

fue algo completamente distinto. Un cambio de paradigma total. No tenía conocimiento del

14:08

juego preprogramado. Nadie le dijo, esta formación de piedras es fuerte. Aprendió sus propias

14:14

estrategias de forma autónoma, a partir de los datos. Primero viendo partidas humanas, y luego,

14:20

y esto es lo más importante, superando ese conocimiento a través del autojuego. ¿Usó

14:25

algoritmas de propósito general? Exacto. Su enfoque no era ver más lejos por fuerza bruta,

14:31

sino ver mejor. Como dijimos, evaluaba miles de veces menos posiciones, pero lo hacía de forma

14:37

infinitamente más inteligente que el juego. ¿Qué hacía Deep Blue? No tenía conocimiento de

14:38

gracias a la intuición de sus redes. No era una máquina que calculaba más rápido que un humano.

14:43

Era una máquina que, por primera vez, parecía haber aprendido a entender un juego. Había

14:49

desarrollado un juicio propio. Exacto. Y por eso la victoria de AlphaGo no fue solo sobre un juego.

14:54

Demostró algo mucho más profundo. Demostró que la combinación de aprendizaje profundo,

14:59

aprendizaje por refuerzo y búsqueda inteligente podía resolver problemas de una complejidad

15:04

abrumadora. Problemas que hasta entonces considerábamos exclusivos de nuestro

15:08

intelecto. Y eso nos lleva a la gran pregunta. Más allá de los juegos, ¿qué significa esto para

15:13

el mundo real? Lo fascinante aquí, y lo que convierte a este paper en un pilar de la IA

15:18

moderna, es que este enfoque es increíblemente general. Esta arquitectura de aprender por

15:23

imitación y luego perfeccionarse por autoexperimentación tiene aplicaciones en

15:27

campos que nos cambian la vida. Piensa en el descubrimiento de fármacos. Claro. Puedes

15:31

entrenar una red de políticas para que sufiera moléculas candidatas y una red de valor para que

15:36

estime su eficacia. De hecho, DeepMind aplicó una filosofía muy similar años después para crear

15:42

AlphaFold, el sistema que resolvió el problema del plegamiento de proteínas. Un problema que la

15:49

biología arrastraba desde hacía 50 años. 50 años. O sea que el legado de AlphaGo no es una

15:54

máquina que juega bien algo. Es una receta, una metodología para atacar problemas complejos que

15:59

antes no sabíamos ni por dónde empezar. Desde la ciencia de materiales hasta la logística.

16:03

Precisamente. AlphaGo no cerró un capítulo en la historia de los juegos. Abrió una puerta inmensa

16:09

a la resolución de problemas en el mundo real, demostrando que la intuición ya no es un dominio

16:14

exclusivamente humano. Esta exploración de los cimientos de la IA moderna continúa. Mañana

16:19

nos adentraremos en otro paper que provocó un nuevo terremoto, esta vez en el mundo del

16:24

lenguaje. Language Models are Few Shot Learners. Este artículo que veremos mañana, el que presentó

16:33

en este episodio de hoy. Muchas gracias por tu atención. Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.