E016_AlexNet e ImageNet: El nacimiento del DeepLearning

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos, hoy retomamos nuestra serie, los papers que cambiaron la historia de la IA, con la segunda entrega.

0:43

Y si la primera fue sobre los cimientos teóricos, la de hoy es, vamos, el Big Bang.

0:49

Totalmente. Es el momento en que toda esa teoría explota y se convierte en una fuerza que, bueno, ha definido la última década por completo.

0:57

Hablamos del paper ImageNet Classification with Deep Convolutional Neural Networks, publicado por tres nombres clave de la Universidad de Toronto.

1:06

Alex Krisevsky, Ilya Sutskever y, de nuevo con nosotros, el padrino del Deep Learning, Geoffrey Hinton.

1:14

Exacto.

1:15

La misión de hoy es entender qué pasó exactamente ese día, el 30 de septiembre de 2012. Porque no es una fecha cualquiera.

1:23

Para nada.

1:23

Muchos la consideran el nacimiento de la inteligencia artificial moderna, la que conocemos hoy.

1:29

Y para entender esa explosión, primero hay que viajar al silencio que había justo antes.

1:33

Desde luego. El mundo antes de 2012 era radicalmente distinto.

1:40

La visión por computador, por ejemplo, era un campo con avances.

1:43

Avances muy, muy lentos. Casi glaciales.

1:47

¿Y eso por qué? ¿Faltaba interés?

1:49

Faltaba financiación, porque los resultados prácticos eran muy modestos.

1:53

Todo el mundo, toda la comunidad científica pensaba que el progreso vendría de algoritmos más elegantes, de refinar las matemáticas.

2:01

No de la fuerza bruta.

2:02

Para nada. La idea de usar redes neuronales gigantes, el Deep Learning, se consideraba una excentricidad, una curiosidad teórica, pero impracticable.

2:12

Inviable.

2:13

¿Y cuál era el bloqueo? ¿Qué impedía que funcionara?

2:16

Pues había dos bloqueos fundamentales. El primero, la computación.

2:20

Se creía que entrenar algo así requería una potencia que simplemente no existía.

2:25

O no era accesible para los investigadores, claro.

2:28

Exacto. Y el segundo, que quizá es más importante, era la creencia de que no había suficientes datos en el mundo.

2:36

Datos etiquetados, organizados, para enseñarle a una red tan enorme, sin que se limitara a memorizarla.

2:43

Las fotos.

2:44

En lugar de aprender de verdad.

2:46

Justo.

2:47

Y es ahí, precisamente en el problema de los datos, donde arranca esta historia.

2:52

Porque, para entender el éxito de AlexNet, que es el modelo del que hablamos, hay que hablar de su combustible.

2:59

Totalmente.

2:59

Un combustible que fue tan revolucionario como el motor. El conjunto de datos ImageNet.

3:05

Y todo empieza con la visión de una investigadora, Fei-Fei Li, allá por 2006.

3:09

Exacto. Fei-Fei Li tuvo una especie de epifanía.

3:12

Se dio cuenta de que todo el campo estaba obsesionado con construir mejores modelos. Mejores coches, por así decirlo.

3:19

Pero nadie construía las carreteras.

3:22

Ni se preocupaba de la gasolina.

3:24

Exacto.

3:25

Los estaban alimentando con conjuntos de datos que hoy nos parecerían de risa. Miles de imágenes, como mucho. Decenas de miles.

3:33

No reflejaban la complejidad del mundo real, vamos.

3:36

En absoluto. Ella vio que el cuello de botella no era el algoritmo. Era la materia prima.

3:40

Y lo más fascinante es...

3:42

¿De dónde saca la inspiración? De un proyecto de lingüística de los años 80.

3:47

Una conexión brillante. Se inspiró en Wernet, que es básicamente un mapa de las relaciones entre palabras. Organiza conceptos en una jerarquía.

3:56

A ver, un ejemplo.

3:57

Pues, un bastón alemán es un tipo de perro, que es un tipo de cánido, que es un mamífero. Esa estructura.

4:04

Ya. La idea de Lino fue de una simplicidad genial. Construir un Wernet con ojos.

4:10

Asociar a cada uno de esos conceptos un torrente.

4:12

La idea es genial, pero la escala es... demencial. Una cosa es tener la idea y otra llevarla a cabo.

4:20

Las cifras marean. La primera versión, de 2009, tenía 12 millones de imágenes en 22.000 categorías.

4:27

12 millones. Es que, si una persona se pone a etiquetar una imagen por minuto, sin parar, tardaría más de 22 años.

4:36

Imposible para un laboratorio. Una tarea titánica. Y aquí es donde su enfoque fue tan ingenioso.

4:42

¿Qué hicieron?

4:42

Recurrieron a una herramienta que entonces era muy nueva. Amazon Mechanical Turk.

4:47

Ah, la plataforma de crowdsourcing.

4:49

Exacto. Externalizaron microtareas a miles de personas en todo el mundo. Convirtieron un problema de investigación de décadas en un problema de logística masiva. Y lo resolvieron.

5:00

Vale, consiguen lo imposible, crean esa especie de biblioteca de alejandría visual y la presentan en 2009. Uno esperaría que la comunidad científica se volviera loca.

5:09

Pues la reacción fue un silencio sepulcral.

5:12

En serio. Casi total. El feedback fue descorazonador. Es demasiado grande. Es un desastre. Demasiado complejo. No me lo puedo creer.

5:22

Piensa que los modelos punteros de la época manejaban, con suerte, una docena de categorías. Enfrentarlos a 22.000. A la mayoría les pareció una locura.

5:32

Entonces, tienen un circuito de Fórmula 1 increíble, pero nadie quiere correr en él.

5:37

Justo. Así que, ¿qué hicieron? ¿Organizar su propia carrera?

5:41

Claro.

5:42

El ImageNet Large Scale Visual Recognition Challenge. El ILS VRC. Una competición anual. Simplificaron el problema a mil categorías y lanzaron el guante.

5:54

Este es el nuevo estándar. A ver qué podéis hacer.

5:56

Y funcionó. Se convirtió de la noche a la mañana en el mundial de la visión por computador.

6:01

Y con ese escenario llegamos a 2012. El 30 de septiembre se publican los resultados. Y un equipo de Toronto con un modelo llamado AlexNet no es que gane.

6:11

Cifras.

6:12

El mejor resultado tenía una tasa de error del 25,8%.

6:17

Bajar del 25 era como el gran objetivo, ¿no?

6:21

Era la barrera psicológica. Bueno, pues AlexNet consiguió un 15,3%.

6:26

Un momento. ¿15,3?

6:28

15,3. El segundo clasificado de ese año, que usaba la mejor tecnología clásica, se quedó en un 26,2%.

6:36

O sea, casi 11 puntos de diferencia.

6:42

Una demolición. Fue como si un corredor de 100 metros lisos batiera el récord mundial por dos segundos. Un shock absoluto.

6:52

Y todo el mundo se hizo la misma pregunta. ¿Qué demonios ha pasado aquí?

6:56

Y la respuesta fue que habían apostado por el caballo que todos daban por muerto.

7:01

Una red neuronal convolucional. Una CNN, pero muy, muy profunda.

7:06

La tormenta perfecta.

7:08

Se alinearon tres factores. Primero, los datos.

7:11

Por fin tenían ImageNet.

7:14

Segundo, el hardware. Las tarjetas gráficas de videojuegos, las GPUs.

7:18

Gracias a CUDA de NVIDIA. Eso es, habían alcanzado una potencia que permitía esos cálculos masivos.

7:24

Y tercero, el modelo. Una arquitectura de ocho capas con 60 millones de parámetros.

7:31

Entiendo. Suena perfecto. Pero otros habían intentado usar redes profundas y habían fracasado.

7:37

El truco tuvo que estar en los detalles del modelo, ¿no?

7:39

¿Qué tenía por dentro?

7:41

Para que funcionara tan bien.

7:42

Esa es la clave.

7:44

No eran solo los ingredientes, era la receta.

7:47

Y el paper es muy claro sobre cuáles fueron sus trucos.

7:49

El primero, y según ellos el más importante, fue cambiar una pieza minúscula, la función de activación.

7:57

Usaron algo llamado ReLU.

7:59

Rectified Linear Units.

8:02

Suena muy técnico, pero la idea es casi ridículamente simple.

8:05

Es insultantemente simple.

8:07

Las redes de la época usaban funciones matemáticamente complejas.

8:11

Como las sigmoides, que se saturan.

8:14

Hacen que el aprendizaje sea muy lento.

8:16

Agónicamente lento. ReLU es simplemente la función max 0,x.

8:21

Si la señal es negativa, la neurona se apaga. Si es positiva, la deja pasar tal cual.

8:26

Es trivial.

8:27

¿Y el efecto?

8:28

Demoledor. El paper demuestra que las redes con ReLU entrenaban hasta seis veces más rápido.

8:35

¿Seis veces? Es una locura.

8:37

Sin esa simpleza, probablemente no habrían tenido tiempo de entrenar su modelo para la computadora.

8:41

Es fascinante que la solución no fuera un algoritmo más complejo, sino radicalmente más simple.

8:47

Fue un shock cultural, totalmente.

8:50

Demostró que a veces la solución más elegante no es la que funciona.

8:53

Pero la velocidad era sólo el primer problema. El siguiente era de pura fuerza bruta.

8:57

¿A qué te refieres?

8:59

Su modelo era tan gigantesco que no cabía en la memoria de una sola GPU de la época.

9:04

Claro. Hablamos de tarjetas con tres gigas de memoria. Hoy nos parece de risa.

9:08

Exacto.

9:09

Un modelo de 60 millones de kilómetros.

9:11

¿De parámetros no entra ahí?

9:13

Parecía un obstáculo insalvable. ¿Cómo lo solucionaron?

9:16

Con pura ingeniería. Partieron la red por la mitad, entrenaron unas capas en una GPU y el resto en otra.

9:24

Y las comunicaban en puntos concretos.

9:27

Y al hacerlo descubrieron algo que no se esperaban.

9:30

Algo fascinante. El sistema se autoorganizó. Observaron que cada GPU se especializaba de forma espontánea.

9:38

¿Cómo que se especializaba?

9:39

¿Cómo se especializaba?

9:39

Pues, por ejemplo.

9:41

Los filtros de una GPU aprendieron a ignorar el color. Se especializaron en detectar bordes, texturas, formas.

9:48

Entiendo.

9:49

Mientras la otra GPU se especializó justo en lo contrario, en detectar manchas de color.

9:55

El sistema creó por sí mismo una especie de hemisferio para la forma y otro para el color.

10:01

Eso es alucinante. Es casi biológico.

10:04

Totalmente. Vale, ya tienen un modelo que entrena rápido y que cabe en las máquinas.

10:09

Pero ahora viene…

10:11

El gran fantasma de las redes neuronales. El sobreajuste. El enemigo a batir.

10:17

El riesgo de que el modelo se memorizara las fotos en lugar de aprender a generalizar.

10:22

¿Y qué hicieron para evitarlo?

10:24

Usaron un arsenal de técnicas, pero dos fueron revolucionarias.

10:28

La primera, el data augmentation. El aumento de datos.

10:32

La idea de… si no tienes suficientes datos, invéntatelos.

10:37

Exactamente. De cada imagen extraían múltiples recortes de datos.

10:41

Múltiples, aleatorios y también sus reflejos, como en un espejo.

10:45

Con esa técnica tan simple, multiplicaron el tamaño de su dataset por un factor de 2.048.

10:51

Brutal. Una forma barata de generar una cantidad ingente de datos.

10:56

¿Y la segunda técnica? Porque esta sí que se ha convertido en un estándar absoluto.

11:00

La segunda es dropout. Una de las ideas más brillantes y contraintuitivas del deep learning propuesta por el propio Hinton.

11:07

¿Qué consiste en…?

11:09

Durante el entrenamiento, en cada paso de la carrera, se han convertido en un estándar absoluto.

11:11

En este caso, apagas al azar la mitad de las neuronas. Simplemente no participan.

11:16

Parece una locura. Estás haciendo que tu red sea más tonta a propósito. ¿Por qué funciona eso?

11:22

Porque la obliga a ser robusta. Evita que una neurona dependa demasiado de una característica concreta, porque sabe que en cualquier momento puede desaparecer.

11:30

La fuerza a aprender representaciones redundantes. Exacto. Al final, todas las neuronas se vuelven más versátiles.

11:37

El paper es tajante. Sin dropout, su red sufría de un sobreajuste.

11:41

Un sobreajuste sustancial.

11:42

Entiendo que, además de esto, hubo otros retoques más finos.

11:45

Sí, y eso demuestra la atención al detalle que pusieron. Mencionan una normalización inspirada en la biología y una técnica de pooling solapado. Cada una arañó alguna décima al error.

11:55

¿Fueron el pulido final?

11:57

Eso es. Pero las grandes palancas fueron relu, los datos aumentados y, sobre todo, dropout.

12:04

El impacto de todo esto fue… sísmico. No fue solo ganar una competición.

12:10

No.

12:11

Fue demostrarle a todo un campo de investigación que el camino que la mayoría seguía estaba equivocado. Y que esa vía excéntrica de las redes profundas era el futuro.

12:21

Un cambio de paradigma total.

12:23

Instantáneo. Hay un gráfico muy famoso del repositorio científico Archive. Durante años, la línea de papers de IA es casi plana. Y en 2012…

12:33

Se convierte en una pared vertical.

12:35

Una pared vertical que no ha dejado de crecer. Alex Nett abrió las compuertas.

12:41

Toda la comunidad, y poco después la industria, pivotó masivamente hacia el deep learning.

12:46

Y la propia competición, el ILSBRC, es el mejor termómetro de esa revolución.

12:51

El mejor. Siguió hasta 2017. Para entonces, la mayoría de modelos ya superaban el umbral del 5% de error que se considera rendimiento sobrehumano.

13:01

En solo 5 años.

13:02

En 5 años pasamos de luchar por un 25% a superar la capacidad humana. Todo gracias a la explosión que inició Alex Nett.

13:11

Mirando hacia atrás, leyendo el paper, ¿eran ellos conscientes de la revolución que estaban desatando?

13:17

El párrafo final es que es profético. Pone la piel de gallina. Señalan dos cosas. Primero, dicen que no usaron pre-entrenamiento no supervisado, pero que esperaban que fuera una vía muy fructífera.

13:31

Que hoy es el pilar de los modelos como GPT. Lo vieron venir.

13:34

Lo vieron venir. Y la segunda parte de la profecía es aún más potente.

13:38

¿Qué dicen? ¿Concluyen diciendo…?

13:41

Más o menos.

13:43

Nuestros resultados mejoran cuanto más grande hacemos la red y más tiempo la entrenamos.

13:49

La receta de la última década.

13:51

Y terminan con una frase increíble.

13:53

Pero todavía nos quedan muchos órdenes de magnitud para igualar la vía inferotemporal del sistema visual humano.

14:01

Alucinante.

14:03

O sea, en su momento de mayor triunfo, ya están diciendo, esto es solo el principio y el camino a seguir es la escala.

14:09

¿Más datos?

14:11

Modelos más grandes, más computación.

14:14

Dejaron clarísimo que el rendimiento estaba ligado a la escala, pero que la brecha con la biología seguía siendo abismal.

14:21

AlexNet no fue un invento milagroso. Fue la sinergia perfecta de tres pilares.

14:26

Datos masivos, gracias a ImagenNet.

14:29

Computación paralela asequible, gracias a las GPUs de los videojuegos.

14:33

Y una arquitectura de red profunda, resucitada con innovaciones clave como Relu y Dropout, que por fin la hicieron entrenable.

14:40

Esa es la síntesis perfecta. AlexNet no solo resolvió un problema de visión. Cambió las reglas del juego para toda la IA.

14:47

Demostró que la escala, tanto de datos como de modelo, era un camino tremendamente poderoso hacia la inteligencia.

14:54

Lo que nos deja con una pregunta final. Para reflexionar sobre dónde estamos hoy, más de una década después.

15:00

Así es. En 2012, el equipo de Hinton identificó la escala como el camino. Pero reconoció la enorme brecha con el cerebro.

15:08

Hoy, operamos con modelos miles de veces más grandes.

15:12

Entrenados con datasets que hacen que ImagenNet parezca un juguete.

15:16

Exacto. La pregunta que sigue en el aire es, ¿estamos simplemente escalando la misma idea fundamental que ellos propusieron?

15:23

¿O hemos descubierto en este tiempo nuevos principios que nos acerquen de verdad a esa vía infratemporal del cerebro?

15:29

Dicho de otro modo, ¿es la inteligencia solo una cuestión de escala computacional?

15:33

¿O nos siguen faltando piezas conceptuales que ni siquiera el Big Bang de AlexNet llegó a iluminar?

15:38

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

15:53

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E016_AlexNet e ImageNet: El nacimiento del DeepLearning

Episode description

Persons