Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.
¡Empezamos!
Bienvenidos a una nueva entrega de nuestra serie Los Papers que cambiaron la historia de la IA.
Hoy vamos a hablar de un juego, pero no de cualquier juego.
El Go no es como el ajedrez, ¿sabes? Con sus piezas, sus jerarquías, el objetivo de capturar al rey.
El Go es más, no sé, más orgánico, casi un arte. Poner piedras en un tablero para rodear territorio.
Parece simple, pero tiene una complejidad que de verdad desafía la comprensión.
Es que la palabra complejidad casi se queda corta. A ver, para que nos hagamos una idea del abismo que los separa de otros juegos.
En ajedrez, en una posición normal.
Un jugador tiene unas 35 jugadas posibles.
Más o menos, sí.
En Go, la media es de 250. Y esta diferencia, que ya parece grande, se convierte en un disparate cósmico cuando calculas el número total de partidas.
El número de configuraciones legales en un tablero de Go es mayor que el número de átomos que se estima que hay en el universo observable.
Es una cifra que es imposible de visualizar.
Y por eso, claro, el Go era el...
El santo grial de la inteligencia artificial en juegos. Era como el último bastión de la intuición humana.
En 2015, la comunidad de IA era casi unánime. Faltaba, como mínimo, otra década para que una máquina pudiera ganar a un campeón.
Claro. Se pensaba que la fuerza bruta, la estrategia que usó Deep Blue para ganar a Kasparov, aquí era, bueno, como intentar vaciar el océano con un dedal. No sirve de nada.
Exacto.
El problema no era de velocidad de cálculo, era de...
De juicio.
De intuición.
Como decías. Un jugador experto de Go no calcula millones de jugadas. Siente la posición. Reconoce patrones.
Tiene un instinto.
Eso es. Un instinto sobre qué zonas del tablero son prometedoras. Y claro, ¿cómo programas eso en una máquina? Pareció un problema intratable.
Pero esa predicción de una década saltó por los aires mucho antes. Hoy nos sumergimos en el documento que lo cambió todo.
El artículo de 2016 publicado en Nature.
Este es el paper que presentó al mundo a AlphaGo.
Y nuestra misión hoy es desgranar cómo lograron lo que parecía imposible. ¿Cuál fue la genialidad que les permitió crear algo parecido a una intuición artificial?
Vale, entremos en materia.
Si la fuerza bruta es inútil ante un problema de esta escala, ¿por dónde empiezas?
No puedes decirle a un ordenador, evalúa todas las posibilidades.
Es una tarea.
¿Eh? Infinita.
Claro. Y los creadores de AlphaGo tuvieron que renunciar a esa idea y pensar de una forma completamente distinta.
Y aquí es donde encontramos la primera gran idea, la que lo vertebra todo.
En lugar de buscar una única red neuronal gigantesca que lo hiciera todo, se dieron cuenta de que la inteligencia humana no funciona así.
Dividieron el problema en dos tareas que, en realidad, son muy humanas.
Una es el instinto rápido, casi un reflejo, y la otra es el juicio reposado.
La evaluación de la situación.
Y construyeron una arquitectura con dos cerebros especializados. Uno para cada tarea.
De acuerdo, dos cerebros. Vamos con el primero.
Cuando un jugador humano mira un tablero, no considera las 250 jugadas.
Su cerebro filtra automáticamente el 99% de ellas y se centra en un puñado que parecen prometedoras.
El primer cerebro de AlphaGo hace algo parecido.
Exactamente eso. Es la llamada red de políticas, la Policy Network.
¿Su única función?
Su única función es reducir la amplitud de la búsqueda.
La amplitud. Sí. Se le muestra una posición del tablero y, en lugar de analizarlo todo, la red actúa como un experto humano y dice
Olvida todo lo demás. De las 250 jugadas, estas cuatro o cinco son las únicas que merecen tu atención.
Su trabajo es podar el árbol de posibilidades de una forma drástica.
Responde a la pregunta. ¿Qué movimientos tienen sentido ahora mismo?
Entendido.
La red de políticas te da, digamos, un menú de opciones sensatas.
Pero eso es solo la mitad de la batalla, ¿no?
Porque entre esas cuatro o cinco buenas jugadas, una podría llevarte a la victoria y otra a una trampa sutil cinco turnos más tarde.
¿Cómo decide AlphaGo cuál de esas ramas del futuro es la mejor sin tener que explorarlas hasta el final?
Porque eso nos devolvería al problema de la complejidad infinita.
Ahí es donde entra el segundo cerebro, la red de valor, la Value Network.
Su función es reducir la profundidad de la búsqueda.
Esta red no necesita simular la partida hasta su conclusión.
En su lugar, hace algo que también es muy humano.
Mira una configuración del tablero, una foto fija y emite un juicio.
Estima la probabilidad de que un jugador gane desde esa posición.
Responde a la pregunta.
Sin pensar más allá, solo mirando el tablero como está, quién va ganando y por cuánto.
O sea que el sistema funciona en tándem.
La red de políticas dice, considera estos movimientos.
Y para cada uno de ellos, la red de valor dice, si haces este movimiento,
la posición resultante es un 62% favorable para ti.
Si haces este otro, es un 58%.
Precisamente.
Es una analogía que ellos mismos usan.
Es como tener un equipo de dos expertos aconsejándote.
Uno es el estratega creativo, el que tiene el instinto y te dice,
céntrate en estos tres o cuatro movimientos, son los únicos que tienen potencial.
El otro es el analista frío y calculador que,
para cada una de esas sugerencias,
usurra al oído un veredicto.
Esta posición es ganadora o, cuidado,
esta posición parece buena, pero a largo plazo es peligrosa.
Y esa combinación es lo que les permite evitar el océano de posibilidades.
Exacto.
En lugar de buscar a ciegas en un espacio infinito,
Alfago realiza una búsqueda mucho más dirigida,
más inteligente, guiada por estas dos intuiciones artificiales.
Y eso es fundamental para entender la diferencia con los programas anteriores.
Alfago evaluaba miles de veces menos posiciones que un programa de ajedrez como Deep Blue.
¿No ganaba por ser más rápido?
No. Ganaba por ser más listo.
Su búsqueda era más eficiente porque sus dos redes neuronales le permitían concentrar su atención computacional
sólo donde realmente importaba.
Fue, bueno, un cambio de paradigma total.
Vale, eso lo entiendo. La arquitectura es brillante.
Pero esa inteligencia, esa intuición de las redes tiene que venir de alguna parte.
No puedes implementarla de una sola manera.
encender una red neuronal y que sepa jugar algo? ¿Cómo se le enseña a un sistema a tener ese
instinto de gran maestro? Esa es la segunda parte genial de este paper. El proceso de
entrenamiento es casi tan importante como la arquitectura. Lo detallan en la figura 1 y es
un pipeline en tres etapas muy ingenioso que lleva al sistema de ser un mero imitador a convertirse
en un verdadero maestro. La primera fase es la más intuitiva, aprender de los humanos. Lo que
se conoce como aprendizaje supervisado. Supongo que le mostraron miles de partidas de grandes
maestros. Millones. Alimentaron a la red de políticas inicial con una base de datos de 30
millones de posiciones extraídas de partidas de alto nivel jugadas por humanos en el servidor
que allí es. El objetivo de la red era muy simple. Se le mostraba una posición y tenía que predecir
cuál sería el siguiente movimiento del experto humano. Básicamente, aprender a imitar. ¿Y qué
tal lo hizo? ¿Con qué precisión podía adivinar el movimiento de un maestro? Alcanzó
un nivel de aprendizaje supervisado. El objetivo de la red era muy simple. Se le mostraba una posición
con una precisión del 57 por ciento. Y esto puede no sonar espectacular, pero hay que ponerlo
en contexto. El mejor sistema anterior, el estado del arte en ese momento, estaba en un 44 por ciento.
Ah, es un santo enorme. Gigantesco. Un salto cualitativo. Demostró que las redes neuronales
profundas eran increíblemente buenas capturando los patrones sutiles del juego humano. En esta
fase, AlphaGo aprendió a jugar bien, a hacer movimientos que un humano consideraría sensatos.
Pero aquí me surge una duda. Imitar no es lo mismo que entender, y mucho menos que ganar. Un
imitador puede copiar los movimientos correctos, pero no entiende por qué son buenos. Podría ser
frágil ante una situación nueva que no estuviera en su base de datos. Una objeción perfecta. Y es
precisamente el problema que aborda la segunda fase del entrenamiento. Aprender a ganar. Para esto,
usaron aprendizaje por refuerzo. Reinforcement learning. Cogieron esa red ya entrenada para imitar y la
pusieron a jugar millones de partidas contra versiones de sí misma. Espera, jugando contra
sí misma. ¿Cómo funciona eso? Imagina dos copias de la red. Juegan una partida completa. Al final,
una gana y otra pierde. El sistema entonces recompensa a la red ganadora, reforzando las
decisiones que la llevaron a la victoria, y penaliza a la perdedora. Ah, claro. Y ahora,
repite ese proceso millones de veces. La red empieza a descubrir estrategias por sí sola.
El objetivo ya no es inmediato. La red empieza a descubrir estrategias por sí sola. El objetivo ya no es inmediato.
El objetivo ya no es imitar a un humano, sino encontrar cualquier secuencia de movimientos que
conduzca a la victoria. Y me imagino que, al jugar contra sí misma, puede explorar el juego de una
forma que ningún humano podría. Juega el equivalente a siglos de Go en cuestión de días. Es a trascender
el conocimiento humano. El resultado fue una nueva red de políticas, mucho más fuerte. Para que te
hagas una idea de su potencia, esta nueva red, jugando por pura intuición, sin usar ningún
algoritmo de búsqueda, ya ganaba el 85% de la victoria. El resultado fue una nueva red de políticas,
contra Pachi. Era uno de los programas de Go de código abierto más potentes de la época,
que realizaba 100,000 simulaciones por movimiento. AlphaGo, sin hacer ni una sola simulación,
ya era superior. Momento, eso es impresionante. Pero ¿no podría ser un engaño? Ganarle a otro
programa, por muy bueno que sea, es distinto a ganarle a la creatividad humana. No corría
el riesgo el sistema de aprender solo a explotar las debilidades de otras máquinas.
¿En lugar de desarrollar un entendimiento real? Esa es la pregunta del millón, y la que solo
podría responderse enfrentándolo a un humano. Pero antes de eso, faltaba la tercera y última
pieza del puzle. Entrenar al juez. A la red de valor. Para ello, usaron el tesoro de datos que
acababan de generar. Los millones de partidas de autojuego. Claro, ahora tenían una fuente de
datos perfecta. Para cualquier posición de esas partidas, sabían cuál había sido el resultado
final. Exactamente. Le mostraron a la red de valor millones de configuraciones del tablero y le
dijeron el resultado final. Así aprendió a mirar cualquier posición y estimar con una precisión
asombrosa la probabilidad de victoria. Pero aquí se toparon con un problema técnico muy sutil pero
crucial que mencionan en el paper. El sobreajuste. El overfitting. Que es cuando un modelo se aprende
los datos de memoria en lugar de aprender los patrones generales, ¿verdad? Sí. Las posiciones
consecutivas en una partida de datos de memoria son las que más se aprenden. Y eso es lo que
de go se parecen muchísimo. Si entrenas la red con todas ellas, tiende a memorizar secuencias. Para
evitarlo, hicieron algo muy inteligente. Crearon un nuevo conjunto de datos con 30 millones de
posiciones, pero tomando solo una posición al azar de cada partida. Ah, para que fueran
independientes. Eso es. Así forzaron a la red a aprender los principios subyacentes de una buena
posición, no a memorizar partidas. Increíble el nivel de detalle. Así que, recapitulando.
Aprende a imitar a los humanos. Segundo, se perfecciona jugando contra sí misma. Y tercero,
usa esas partidas para aprender a juzgar. El resultado es un sistema con una intuición
artificial pulidísima. Y llegó el momento de la verdad. Llegó el momento de ponerlo a prueba.
El elegido fue Fan Hui, el campeón europeo de go. Un jugador profesional dos dan. La partida
se celebró en secreto en octubre de 2015. Nadie sabía nada. El resultado fue una victoria aplastante.
Un 5 a 0 contra un campeón profesional. Tuvo que ser un shock. El propio artículo de Nature lo
subraya con una frase que ya es historia. Fue la primera vez que un programa de ordenador derrotaba
a un jugador profesional humano en el juego del go a tamaño completo. El hito que se creía a una
década de distancia acababa de ocurrir. Fue un terremoto. Pero para entender la magnitud es
fundamental desgranar por qué. ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué?
¿Por qué esto fue tan diferente de la victoria de Deep Blue contra Kasparov en el 97? Tecnológicamente
son hitos que casi pertenecen a universos distintos. Desglosemos esa diferencia porque me padece el
punto clave para entender la revolución de este paper. ¿Qué hacía Deep Blue que no hiciera
AlphaGo y viceversa? Bueno, Deep Blue era la cima de un paradigma. La fuerza bruta y el
conocimiento experto codificado. Su poder residía en un hardware especializado que evaluaba unos
millones de posiciones por segundo. Una bestia. Una bestia de cálculo. Totalmente. Y, muy
importante, su función de evaluación, el software que le decía si una posición era buena o mala,
estaba programada a mano, con miles de reglas creadas por grandes maestros de ajedrez. Su
conocimiento del ajedrez había sido insertado explícitamente por humanos. Mientras que AlphaGo
fue algo completamente distinto. Un cambio de paradigma total. No tenía conocimiento del
juego preprogramado. Nadie le dijo, esta formación de piedras es fuerte. Aprendió sus propias
estrategias de forma autónoma, a partir de los datos. Primero viendo partidas humanas, y luego,
y esto es lo más importante, superando ese conocimiento a través del autojuego. ¿Usó
algoritmas de propósito general? Exacto. Su enfoque no era ver más lejos por fuerza bruta,
sino ver mejor. Como dijimos, evaluaba miles de veces menos posiciones, pero lo hacía de forma
infinitamente más inteligente que el juego. ¿Qué hacía Deep Blue? No tenía conocimiento de
gracias a la intuición de sus redes. No era una máquina que calculaba más rápido que un humano.
Era una máquina que, por primera vez, parecía haber aprendido a entender un juego. Había
desarrollado un juicio propio. Exacto. Y por eso la victoria de AlphaGo no fue solo sobre un juego.
Demostró algo mucho más profundo. Demostró que la combinación de aprendizaje profundo,
aprendizaje por refuerzo y búsqueda inteligente podía resolver problemas de una complejidad
abrumadora. Problemas que hasta entonces considerábamos exclusivos de nuestro
intelecto. Y eso nos lleva a la gran pregunta. Más allá de los juegos, ¿qué significa esto para
el mundo real? Lo fascinante aquí, y lo que convierte a este paper en un pilar de la IA
moderna, es que este enfoque es increíblemente general. Esta arquitectura de aprender por
imitación y luego perfeccionarse por autoexperimentación tiene aplicaciones en
campos que nos cambian la vida. Piensa en el descubrimiento de fármacos. Claro. Puedes
entrenar una red de políticas para que sufiera moléculas candidatas y una red de valor para que
estime su eficacia. De hecho, DeepMind aplicó una filosofía muy similar años después para crear
AlphaFold, el sistema que resolvió el problema del plegamiento de proteínas. Un problema que la
biología arrastraba desde hacía 50 años. 50 años. O sea que el legado de AlphaGo no es una
máquina que juega bien algo. Es una receta, una metodología para atacar problemas complejos que
antes no sabíamos ni por dónde empezar. Desde la ciencia de materiales hasta la logística.
Precisamente. AlphaGo no cerró un capítulo en la historia de los juegos. Abrió una puerta inmensa
a la resolución de problemas en el mundo real, demostrando que la intuición ya no es un dominio
exclusivamente humano. Esta exploración de los cimientos de la IA moderna continúa. Mañana
nos adentraremos en otro paper que provocó un nuevo terremoto, esta vez en el mundo del
lenguaje. Language Models are Few Shot Learners. Este artículo que veremos mañana, el que presentó
en este episodio de hoy. Muchas gracias por tu atención. Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.