E015_Inicio de la serie "Los Papers que Cambiaron la Historia de la IA"
Ep. 15

E015_Inicio de la serie "Los Papers que Cambiaron la Historia de la IA"

Episode description

🎙️ ¡Estrenamos serie! Bienvenidos al primer episodio de “Los Papers que Cambiaron la Historia de la IA”, nuestro viaje especial a lo largo de este enero de 2026. ⏳ Retrocedemos hasta 1986, al corazón del “Invierno de la IA”, un momento oscuro donde la financiación había desaparecido y las redes neuronales se consideraban juguetes inútiles incapaces de aprender. En este capítulo, desenterramos la fascinante historia detrás del artículo de apenas cuatro páginas publicado en Nature que demostró que los críticos estaban equivocados, resucitando una disciplina entera y plantando la semilla de la revolución tecnológica actual. ❄️🔥

🧠 En este episodio te explicamos de forma sencilla qué es la Retropropagación (Backpropagation), el motor matemático que permitió el nacimiento del Deep Learning y que hoy sigue impulsando desde GPT-5 hasta los coches autónomos. Además, analizamos el impacto humano y científico de este hallazgo: desde el Premio Nobel de Física 2024 otorgado finalmente a Geoffrey Hinton, hasta el necesario homenaje a David Rumelhart, el visionario que falleció antes de ver cómo su trabajo cambiaba el mundo. Dale al play ▶️ para entender el origen exacto de la inteligencia artificial moderna.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos al episodio 15.

0:40

Hoy no hablamos de las noticias de ayer, hoy viajamos al origen de todo.

0:44

Bueno, arrancamos una serie especial, los papers que cambiaron la historia.

0:48

Y para el primero, nos tenemos que ir a 1986.

0:52

Un viaje a una época que, para la inteligencia artificial, era de todo menos optimista.

0:57

Se conoce como el invierno de la IA.

1:00

No es una metáfora, ¿verdad?

1:01

Para nada. Era un invierno muy real.

1:04

La financiación, tanto pública como privada, se había evaporado.

1:09

Los grandes proyectos, cancelados.

1:11

El campo estaba lleno de promesas rotas.

1:13

Y en el epicentro de ese pesimismo estaban las redes neuronales.

1:17

Esa idea de imitar el cerebro humano con software se consideraba un fracaso.

1:23

Un callejón sin salida.

1:24

Totalmente.

1:25

El golpe de gracia, de hecho, lo había dado años antes un libro, Perceptrons, de Marvin Minsky y Seymour Papert.

1:32

Me suena, sí.

1:33

Pues demostraron, matemáticamente, que las redes neuronales más simples de la época, los perceptrones,

1:39

no podían resolver problemas lógicos.

1:42

Que eran increíblemente...

1:44

Espera, espera. Recuérdame el problema X o R.

1:49

Es la lógica del O exclusivo.

1:52

O sea, o una cosa o la otra.

1:53

Pero no las dos a la vez.

1:55

¿Vale?

1:55

El típico ejemplo es...

1:58

Claro, un concepto que entiende un niño de cinco años.

2:05

Exacto.

2:05

Pues bien, las redes neuronales de la época eran incapaces de aprender esa regla tan simple.

2:11

¿Se las consideraba?

2:12

Pues eso.

2:13

O sea, que el campo estaba básicamente muerto.

2:18

Y entonces, en mitad de esa glaciación intelectual, en octubre de 1986...

2:23

La revista Nature, una de las más prestigiosas del mundo, publica un artículo.

2:28

Y no uno muy largo, por lo que tengo entendido.

2:31

Apenas cuatro páginas.

2:32

Brevísimo.

2:33

El título, Learning Representations by Backpropagating Errors.

2:37

Aprendiendo representaciones mediante la retropropagación de errores.

2:41

Y lo firmaban tres investigadores.

2:43

David E. Rumelhart, Geoffrey E. Hinton y Ronald J. Williams.

2:48

Y bueno, nuestra misión hoy es entender cómo ese texto, contra todo pronóstico,

2:52

se convirtió en la chispa que encendió la hoguera de la IA moderna.

2:56

Es que la historia es increíble.

2:58

Y para entenderla de verdad, creo que tenemos que empezar por quienes la escribieron.

3:02

Porque su propia historia, con un premio Nobel de por medio, es casi tan fascinante como el algoritmo.

3:07

Es que es el punto de partida perfecto.

3:09

Conecta ese momento de 1986 directamente con nuestra actualidad,

3:13

enero de 2026.

3:15

Totalmente.

3:15

Hace poco más de un año, en octubre de 2024,

3:19

la Real Academia de las Ciencias de Suecia le dio el premio Nobel de Física a Geoffrey Hinton,

3:26

uno de los autores.

3:27

Junto a John Hopfield, otro pionero.

3:30

Exacto.

3:31

Pero, claro, la pregunta salta sola.

3:33

Un momento, ¿el Nobel de...?

3:35

Física.

3:36

Ahí me he perdido.

3:37

Hinton era psicólogo cognitivo e informático, ¿no?

3:40

¿Qué tiene que ver...?

3:41

La física con un algoritmo de software, no, no veo la conexión.

3:47

Y, sin embargo, es total.

3:49

Ahí reside parte de la genialidad.

3:52

Lo que hicieron en ese artículo fue tomar prestados conceptos, directamente de la física estadística.

3:57

¿Ah, sí?

3:58

Sí, para describir matemáticamente cómo aprende una máquina.

4:01

Usaron la idea de energía.

4:03

A ver, imagina que la red neuronal es un sistema físico, como un paisaje, un valle con montañas.

4:09

Vale.

4:09

Cada estado posible de la red tiene un sistema físico.

4:11

Cada red tiene un nivel de energía.

4:13

El estado con el error más alto es como estar en la cima de una montaña.

4:17

Es muy inestable.

4:19

Aprender, para ellos, era el proceso de minimizar esa energía.

4:23

Como dejar que una bola ruede cuesta abajo.

4:26

Justo.

4:27

Que ruede hasta encontrar el punto más bajo y estable del valle.

4:30

Ese punto sería la respuesta correcta.

4:32

Vaya, es brillante.

4:34

Usar una metáfora de la física para describir cómo se reduce en error matemático.

4:38

Pero, si hablamos del Nobel.

4:41

Los autores del paper, hay una ausencia que duele.

4:43

Sí.

4:44

El primer autor, la persona que lideraba la investigación, era David Rumelhart.

4:48

¿Por qué no compartió el premio con Hinton?

4:51

Por la razón más triste y definitiva.

4:53

David Rumelhart falleció en 2011.

4:56

Y las reglas del Comité Nobel son inflexibles.

4:59

Los premios no se pueden conceder a título póstumo.

5:01

Qué injusticia poética.

5:04

El líder del proyecto no recibe el máximo reconocimiento por una regla burocrática.

5:09

Es terrible.

5:10

Y eso pone su contribución, la visión que venía de la psicología, en un relieve todavía más importante.

5:16

Totalmente.

5:17

Exacto.

5:18

Por eso es fundamental que este análisis sirva también como un homenaje a su figura.

5:22

Rumelhart no era sólo un nombre en la portada.

5:24

Era el motó intelectual del grupo de investigación PDP, procesamiento distribuido en paralelo.

5:29

En la Universidad de California en San Diego.

5:31

Ajá.

5:32

Su obsesión, desde la psicología cognitiva, era entender cómo aprende nuestro cerebro.

5:36

No interesaba la lógica pura.

5:38

Sino cómo procesamos información de forma masivamente paralela, distribuida.

5:42

Él aportó la pregunta fundamental.

5:44

Y los otros dos completaron el equipo perfecto.

5:47

Un equipo de ensueño, vamos.

5:49

Geoffrey Hinton.

5:50

Era el genio computacional y teórico.

5:52

El que podía traducir esas intuiciones sobre el cerebro en algoritmos elegantes.

5:57

Y faltaría el tercero.

5:59

Y no hay que olvidar al tercer autor.

6:01

Ronald Williams.

6:02

Él era el ingeniero matemático.

6:04

El que aportó el rigor, la solidez, la prueba formal a las ecuaciones.

6:07

Que lo hacían todo posible.

6:09

Un psicólogo con la visión.

6:11

Un informático con el algoritmo.

6:13

Y un matemático con la prueba.

6:15

Juntos.

6:16

En mitad del invierno de la IA.

6:18

A punto de encender la mecha.

6:20

Vale.

6:21

Tenemos a este equipo de ensueño trabajando mientras el resto del mundo cree que su campo es un fracaso.

6:26

¿Cuál fue exactamente la joya de la corona de ese paper?

6:30

El concepto que lo cambió todo.

6:32

La retropropagación de errores.

6:34

O como se la conoce en todo el mundo.

6:36

Backpropagation.

6:37

El corazón de todo.

6:39

Y antes de que la palabra propagación asuste a alguien, la idea es increíblemente intuitiva si usamos la analogía correcta.

6:46

Venga.

6:47

Olvidémonos de las matemáticas y pensemos en una orquesta.

6:50

Me apunto.

6:51

Imagina una orquesta sinfónica enorme. Cientos de músicos.

6:55

Y el director les pide que toquen una sinfonía nueva y muy compleja.

6:59

Pero, para complicarlo todo, no les da la partitura.

7:03

O sea, de oído.

7:04

De oído.

7:05

El desastre está garantizado.

7:06

Un caos de sonido absoluto.

7:08

Exacto.

7:09

Ese primer intento es lo que en el paper llaman el forward pass.

7:13

La pasada hacia delante.

7:15

El director da la señal.

7:16

La orquesta toca.

7:17

Y el resultado, pues un ruido desafinado, atonal, un desastre.

7:22

La información fluye hacia delante, de los músicos al oído del director.

7:26

Bien. Paso uno.

7:27

El intento fallido.

7:28

Paso dos.

7:29

El cálculo del error.

7:31

El director, que sí tiene la partitura perfecta en su cabeza,

7:34

compara el ruido que acaba de oír con la sinfonía ideal.

7:38

La diferencia, esa distancia entre el caos y la perfección, es el error.

7:43

Vale. Hasta aquí entiendo.

7:45

Pero esto ya se sabía hacer, ¿no?

7:48

Sí. Hasta aquí nada nuevo.

7:50

Esto ya se sabía hacer en 1986.

7:53

Sabían que la red estaba equivocada, pero no sabían cómo arreglarla.

7:57

Claro. El problema es qué hacer con ese error.

8:00

Supongo que gritar, lo habéis hecho fatal.

8:03

Repetid. No ayuda a nadie a mejorar.

8:06

Justo ahí está la clave.

8:08

Y aquí llega la magia de 1986.

8:11

El backward pass.

8:13

La pasada hacia atrás.

8:14

¿Y qué hace el director?

8:15

Pues no se limita a dar una crítica general e inútil.

8:18

Lo que hace es recorrer la orquesta en sentido inverso.

8:21

Empieza por la última fila, la de la percusión.

8:24

Hacia atrás.

8:25

Y va avanzando hacia delante hasta los primeros violines.

8:28

Y le da una instrucción precisa y específica a cada músico.

8:33

No una bronca colectiva.

8:35

Sino un susurro individual.

8:37

Precisamente.

8:38

Se acerca al timbalista y le dice.

8:40

Tú tocaste demasiado fuerte en el compás 32.

8:43

Reduce tu intensidad un 10%.

8:46

Luego va al OVE.

8:47

Tu nota LA estaba un poco baja de tono.

8:49

Súbela ligeramente.

8:50

O sea que sabe exactamente cuánta culpa tiene cada uno.

8:53

Sabe cuánta culpa del error final tiene cada músico.

8:56

Y se la asigna de forma justa.

8:58

Quizás se acerca a la flautista de la tercera fila y le dice.

9:01

Tú lo hiciste perfecto.

9:02

No cambies absolutamente nada.

9:04

Me imagino al pobre timbalista recibiendo toda la bronca en la primera ronda.

9:08

Y en realidad el problema era el OVE.

9:10

Podría pasar.

9:11

Pero el algoritmo es justo.

9:12

Reparte la culpa proporcionalmente.

9:14

Y este reparto es el cuarto paso.

9:16

El ajuste de pesos.

9:18

El ajuste.

9:19

Cada músico, que en nuestra red es una neurona,

9:22

ajusta su forma de tocar.

9:24

Ese ajuste es lo que llamamos cambiar los pesos de sus conexiones.

9:29

Y el quinto paso es simplemente iterar.

9:31

Vuelven a tocar la sinfonía desde el principio.

9:34

Y ahora suena un poco menos a desastre.

9:37

Un poco mejor, sí.

9:38

El error es menor.

9:39

Así que el director vuelve a hacer lo mismo.

9:42

Compara, calcula el nuevo error,

9:44

y vuelve a recorrer la orquesta hacia atrás repartiendo nuevas instrucciones.

9:48

Más refinadas, imagino.

9:49

Mucho más.

9:50

Ahora el timbal está bien, pero el trombón se ha pasado un poco.

9:54

Y repite en este ciclo no diez ni cien veces,

9:57

sino miles, millones de veces.

9:59

En cada iteración,

10:01

la orquesta suena un poquito más afinada.

10:03

Hasta que finalmente...

10:05

La sinfonía es perfecta.

10:06

...indistinguible de la perfección.

10:08

Es increíble.

10:09

O sea que el secreto no era sólo saber que la orquesta sonaba mal,

10:13

sino tener una fórmula matemática

10:16

para que el director pudiera susurrarle la corrección exacta a cada músico.

10:20

Exacto.

10:21

Sobre todo a los de las filas de en medio,

10:24

las capas ocultas, que están más escondidos

10:27

y cuyo impacto en el sonido final es más difícil de medir.

10:31

No sabía cómo hacer eso con las neuronas.

10:33

Diste en el clavo.

10:34

Ese era el gran muro.

10:36

Se sabía entrenar redes de una sola capa.

10:38

Pero en cuanto metías capas intermedias,

10:41

las capas ocultas,

10:42

era imposible saber si una neurona de en medio

10:45

había contribuido mucho, poco o nada al error final.

10:48

¿Y la retropropagación?

10:51

Fue la llave que resolvió ese misterio del reparto de la culpa.

10:54

Permitió que la señal de error fluyera hacia atrás

10:57

a través de toda la red, por muy profunda que fuera.

11:00

Esta idea de repartir la culpa hacia atrás

11:03

parece tan intuitiva con tu analogía.

11:05

Pero, ¿cuáles fueron las consecuencias reales?

11:08

¿Por qué esto no fue sólo un paper ingenioso más,

11:11

sino el inicio de una revolución?

11:13

El impacto fue doble y es gigantesco.

11:16

El primer gran impacto es que permitió la profundidad.

11:20

La palabra deep en deep learning, aprendizaje profundo,

11:23

existe gracias a la retropropagación.

11:26

¿Por qué?

11:27

¿No se podían hacer redes con muchas capas antes?

11:29

Se podían dibujar en una pizarra, pero no se podían entrenar.

11:32

Era como tener una orquesta de mil filas de músicos.

11:35

El director podía oír el caos al final,

11:38

pero su voz no llegaba a los de la primera fila.

11:41

El error se diluía, se desvanecía en el camino hacia atrás.

11:44

¿Y la retropropagación es como un megáfono?

11:47

Es el megáfono que permite que la señal de corrección

11:50

llegue intacta hasta la primera neurona de la primera capa,

11:53

sin importar si hay cien capas en medio.

11:55

Y esa profundidad es lo que permite a la IA aprender conceptos abstractos.

11:59

Es como construir con ladrillos cada vez más complejos.

12:03

Exactamente.

12:04

Una red superficial puede aprender a detectar algo muy simple en una imagen,

12:08

como una línea diagonal.

12:10

Pero si añades más capas,

12:12

la segunda capa puede aprender a combinar esas líneas

12:14

para detectar bordes y esquinas.

12:16

La tercera, a combinar bordes para detectar formas

12:19

como un ojo o una nariz.

12:21

Y la capa final…

12:22

Combina ojos y narices para reconocer una cara.

12:25

Esa jerarquía de conocimiento, de lo simple a lo abstracto,

12:28

solo es posible con profundidad.

12:30

Y la profundidad solo se puede entrenar con retropropagación.

12:33

Así que la palabra Deep en Deep Learning es literal.

12:36

Se refiere a tener muchas, muchas capas de músicos.

12:39

Y la retropropagación es el único director que sabe cómo dirigirlas a todas.

12:43

Entendido.

12:45

Ese es el primer impacto, la profundidad.

12:47

¿Y el segundo?

12:49

Su increíble, casi milagrosa resistencia al tiempo.

12:53

Estamos en enero de 2026.

12:55

Cierto.

12:56

Las arquitecturas de IA,

12:57

que dominan el mundo,

12:59

son inmensamente más sofisticadas que las de 1986.

13:02

Hablamos de Transformers,

13:04

de modelos de estado espacio como Mamba,

13:06

de redes CAN.

13:08

Son como naves espaciales comparadas con el biplano de los hermanos Wright.

13:12

Totalmente.

13:13

Pero si abres el capó de GPT-5,

13:15

o de un coche autónomo,

13:16

o de un robot humanoide,

13:18

el motor, el mecanismo fundamental que ajusta los miles de millones de parámetros

13:22

para que la máquina aprenda,

13:24

sigue siendo, en esencia,

13:26

una variante de la repropropagación de 1986.

13:29

Es alucinante.

13:30

La idea central sigue viva y funcionando

13:33

en el corazón de la tecnología más avanzada del planeta,

13:36

casi 40 años después.

13:38

Es el motor de combustión de la inteligencia artificial.

13:40

La carrocería ha cambiado,

13:42

los extras son de ciencia ficción,

13:44

pero el principio de cómo el pistón sube y baja

13:47

para generar el aprendizaje,

13:48

sigue siendo el mismo.

13:50

Y pensar en la perseverancia que hizo falta.

13:52

Hinton y los demás defendieron esta idea durante décadas.

13:55

Esa travesía por el desierto debió ser increíblemente frustrante.

13:59

Durísima.

14:00

Tener el mapa del tesoro,

14:02

pero que nadie te preste un barco para ir a por él.

14:04

Fue una batalla intelectual tremenda.

14:06

Durante los 80 y los 90,

14:08

la corriente dominante,

14:10

liderada por figuras como el propio Minsky,

14:12

era la IA simbólica.

14:14

La de las reglas.

14:15

Eso es.

14:16

Que IA ante la inteligencia debía programarse con reglas lógicas explícitas.

14:21

La idea de que una red aprendiera patrones de forma borrosa,

14:25

casi estadística, como un cerebro,

14:28

era vista como poco científica,

14:30

casi como alquimia.

14:32

Los conexionistas, como se les llamaba,

14:34

eran una minoría casi herética.

14:36

Tuvieron que aguantar años de escepticismo,

14:39

esperando a que el mundo se diera cuenta.

14:41

Y eso nos lleva a la gran conclusión.

14:44

¿Cuál es la lección final de este viaje a 1986?

14:48

La lección, yo creo,

14:50

es que un artículo puramente teórico,

14:52

de apenas cuatro páginas,

14:54

nacido en mitad de una crisis de fe,

14:56

contenía la semilla matemática

14:58

de toda la revolución tecnológica que estamos viviendo.

15:01

Es una locura.

15:02

Demuestra, de una forma bellísima,

15:04

cómo una idea brillante puede necesitar décadas

15:07

para que el mundo, y sobre todo el hardware,

15:09

esté a su altura.

15:11

La teoría, a veces, corre mucho más rápido que la práctica.

15:14

Punto perfecto para cerrar.

15:16

Porque lo fascinante es que en 1986

15:19

tenían la teoría, tenían el mapa del tesoro,

15:22

pero les faltaban dos cosas cruciales.

15:25

Dos cosas enormes.

15:27

Les faltaba la gasolina,

15:29

la escala masiva de datos de Internet que aún no existía,

15:32

y les faltaba el motor,

15:34

la brutal potencia de cálculo de las GPUs,

15:37

las tarjetas gráficas de los videojuegos.

15:39

Tenían el diseño del coche de carreras más rápido del mundo,

15:42

pero solo tenían carreteras de tierra

15:45

y un combustible de muy bajo octanaje.

15:47

Exacto.

15:49

Tuvieron que esperar 26 largos años

15:51

en las sombras, casi olvidados,

15:53

hasta que un concurso de reconocimiento de imágenes en 2012

15:57

lo cambió todo para siempre.

15:59

Pero esa historia la exploraremos en nuestro próximo análisis.

16:02

Y esto nos deja con una idea para reflexionar.

16:05

Si el algoritmo que define nuestra era

16:08

tuvo que esperar casi 30 años a que el hardware lo alcanzara,

16:11

¿qué ideas que hoy consideramos imposibles,

16:14

académicas o pura ciencia ficción

16:16

están solo a la espera de un avance tecnológico

16:18

para convertirse en la realidad cotidiana de 2012?

16:22

Y hasta aquí el episodio de hoy.

16:34

Muchas gracias por tu atención.

16:38

Esto es BIMPRAXIS.

16:48

Nos escuchamos en el próximo episodio.