E016_AlexNet e ImageNet: El nacimiento del DeepLearning
Ep. 16

E016_AlexNet e ImageNet: El nacimiento del DeepLearning

Episode description

“🗓️ 30 de septiembre de 2012: una fecha que marcó el verdadero inicio de la revolución del Deep Learning. En este episodio, viajamos a los orígenes para descubrir cómo AlexNet y el colosal dataset ImageNet rompieron todos los esquemas de la visión por computadora. Exploraremos la audaz visión de pioneros como Fei-Fei Li, quien entendió antes que nadie que la clave para una mejor IA no estaba solo en los modelos, sino en reflejar la diversidad del mundo real a través de datos masivos 📊. Te contaremos cómo, inspirados por WordNet y utilizando el poder del crowdsourcing con Amazon Mechanical Turk, lograron etiquetar millones de imágenes cuando el resto de la comunidad científica lo consideraba una locura imposible. 🚀 Descubre cómo el equipo formado por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton aprovechó por primera vez la potencia de las GPUs para entrenar una red neuronal de 60 millones de parámetros, superando las limitaciones de hardware de la época. Analizaremos las innovaciones técnicas clave, como las Convolutional Neural Networks (CNNs) profundas y la función ReLU, que permitieron a AlexNet aplastar a la competencia en el desafío ILSVRC 2012 con una ventaja abismal de casi 10 puntos porcentuales 🏆. Dale al play ▶️ para entender cómo este ““Big Bang”” tecnológico transformó la inteligencia artificial de una curiosidad académica poco práctica a la fuerza dominante que hoy impulsa el mundo. Fuentes y enlaces relevantes: • AlexNet and ImageNet: The Birth of Deep Learning - Pinecone • Paper original: ImageNet Classification with Deep Convolutional Neural Networks (NeurIPS 2012)”

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos, hoy retomamos nuestra serie, los papers que cambiaron la historia de la IA, con la segunda entrega.

0:43

Y si la primera fue sobre los cimientos teóricos, la de hoy es, vamos, el Big Bang.

0:49

Totalmente. Es el momento en que toda esa teoría explota y se convierte en una fuerza que, bueno, ha definido la última década por completo.

0:57

Hablamos del paper ImageNet Classification with Deep Convolutional Neural Networks, publicado por tres nombres clave de la Universidad de Toronto.

1:06

Alex Krisevsky, Ilya Sutskever y, de nuevo con nosotros, el padrino del Deep Learning, Geoffrey Hinton.

1:14

Exacto.

1:15

La misión de hoy es entender qué pasó exactamente ese día, el 30 de septiembre de 2012. Porque no es una fecha cualquiera.

1:23

Para nada.

1:23

Muchos la consideran el nacimiento de la inteligencia artificial moderna, la que conocemos hoy.

1:29

Y para entender esa explosión, primero hay que viajar al silencio que había justo antes.

1:33

Desde luego. El mundo antes de 2012 era radicalmente distinto.

1:40

La visión por computador, por ejemplo, era un campo con avances.

1:43

Avances muy, muy lentos. Casi glaciales.

1:47

¿Y eso por qué? ¿Faltaba interés?

1:49

Faltaba financiación, porque los resultados prácticos eran muy modestos.

1:53

Todo el mundo, toda la comunidad científica pensaba que el progreso vendría de algoritmos más elegantes, de refinar las matemáticas.

2:01

No de la fuerza bruta.

2:02

Para nada. La idea de usar redes neuronales gigantes, el Deep Learning, se consideraba una excentricidad, una curiosidad teórica, pero impracticable.

2:12

Inviable.

2:13

¿Y cuál era el bloqueo? ¿Qué impedía que funcionara?

2:16

Pues había dos bloqueos fundamentales. El primero, la computación.

2:20

Se creía que entrenar algo así requería una potencia que simplemente no existía.

2:25

O no era accesible para los investigadores, claro.

2:28

Exacto. Y el segundo, que quizá es más importante, era la creencia de que no había suficientes datos en el mundo.

2:36

Datos etiquetados, organizados, para enseñarle a una red tan enorme, sin que se limitara a memorizarla.

2:43

Las fotos.

2:44

En lugar de aprender de verdad.

2:46

Justo.

2:47

Y es ahí, precisamente en el problema de los datos, donde arranca esta historia.

2:52

Porque, para entender el éxito de AlexNet, que es el modelo del que hablamos, hay que hablar de su combustible.

2:59

Totalmente.

2:59

Un combustible que fue tan revolucionario como el motor. El conjunto de datos ImageNet.

3:05

Y todo empieza con la visión de una investigadora, Fei-Fei Li, allá por 2006.

3:09

Exacto. Fei-Fei Li tuvo una especie de epifanía.

3:12

Se dio cuenta de que todo el campo estaba obsesionado con construir mejores modelos. Mejores coches, por así decirlo.

3:19

Pero nadie construía las carreteras.

3:22

Ni se preocupaba de la gasolina.

3:24

Exacto.

3:25

Los estaban alimentando con conjuntos de datos que hoy nos parecerían de risa. Miles de imágenes, como mucho. Decenas de miles.

3:33

No reflejaban la complejidad del mundo real, vamos.

3:36

En absoluto. Ella vio que el cuello de botella no era el algoritmo. Era la materia prima.

3:40

Y lo más fascinante es...

3:42

¿De dónde saca la inspiración? De un proyecto de lingüística de los años 80.

3:47

Una conexión brillante. Se inspiró en Wernet, que es básicamente un mapa de las relaciones entre palabras. Organiza conceptos en una jerarquía.

3:56

A ver, un ejemplo.

3:57

Pues, un bastón alemán es un tipo de perro, que es un tipo de cánido, que es un mamífero. Esa estructura.

4:04

Ya. La idea de Lino fue de una simplicidad genial. Construir un Wernet con ojos.

4:10

Asociar a cada uno de esos conceptos un torrente.

4:12

La idea es genial, pero la escala es... demencial. Una cosa es tener la idea y otra llevarla a cabo.

4:20

Las cifras marean. La primera versión, de 2009, tenía 12 millones de imágenes en 22.000 categorías.

4:27

12 millones. Es que, si una persona se pone a etiquetar una imagen por minuto, sin parar, tardaría más de 22 años.

4:36

Imposible para un laboratorio. Una tarea titánica. Y aquí es donde su enfoque fue tan ingenioso.

4:42

¿Qué hicieron?

4:42

Recurrieron a una herramienta que entonces era muy nueva. Amazon Mechanical Turk.

4:47

Ah, la plataforma de crowdsourcing.

4:49

Exacto. Externalizaron microtareas a miles de personas en todo el mundo. Convirtieron un problema de investigación de décadas en un problema de logística masiva. Y lo resolvieron.

5:00

Vale, consiguen lo imposible, crean esa especie de biblioteca de alejandría visual y la presentan en 2009. Uno esperaría que la comunidad científica se volviera loca.

5:09

Pues la reacción fue un silencio sepulcral.

5:12

En serio. Casi total. El feedback fue descorazonador. Es demasiado grande. Es un desastre. Demasiado complejo. No me lo puedo creer.

5:22

Piensa que los modelos punteros de la época manejaban, con suerte, una docena de categorías. Enfrentarlos a 22.000. A la mayoría les pareció una locura.

5:32

Entonces, tienen un circuito de Fórmula 1 increíble, pero nadie quiere correr en él.

5:37

Justo. Así que, ¿qué hicieron? ¿Organizar su propia carrera?

5:41

Claro.

5:42

El ImageNet Large Scale Visual Recognition Challenge. El ILS VRC. Una competición anual. Simplificaron el problema a mil categorías y lanzaron el guante.

5:54

Este es el nuevo estándar. A ver qué podéis hacer.

5:56

Y funcionó. Se convirtió de la noche a la mañana en el mundial de la visión por computador.

6:01

Y con ese escenario llegamos a 2012. El 30 de septiembre se publican los resultados. Y un equipo de Toronto con un modelo llamado AlexNet no es que gane.

6:11

Cifras.

6:12

El mejor resultado tenía una tasa de error del 25,8%.

6:17

Bajar del 25 era como el gran objetivo, ¿no?

6:21

Era la barrera psicológica. Bueno, pues AlexNet consiguió un 15,3%.

6:26

Un momento. ¿15,3?

6:28

15,3. El segundo clasificado de ese año, que usaba la mejor tecnología clásica, se quedó en un 26,2%.

6:36

O sea, casi 11 puntos de diferencia.

6:42

Una demolición. Fue como si un corredor de 100 metros lisos batiera el récord mundial por dos segundos. Un shock absoluto.

6:52

Y todo el mundo se hizo la misma pregunta. ¿Qué demonios ha pasado aquí?

6:56

Y la respuesta fue que habían apostado por el caballo que todos daban por muerto.

7:01

Una red neuronal convolucional. Una CNN, pero muy, muy profunda.

7:06

La tormenta perfecta.

7:08

Se alinearon tres factores. Primero, los datos.

7:11

Por fin tenían ImageNet.

7:14

Segundo, el hardware. Las tarjetas gráficas de videojuegos, las GPUs.

7:18

Gracias a CUDA de NVIDIA. Eso es, habían alcanzado una potencia que permitía esos cálculos masivos.

7:24

Y tercero, el modelo. Una arquitectura de ocho capas con 60 millones de parámetros.

7:31

Entiendo. Suena perfecto. Pero otros habían intentado usar redes profundas y habían fracasado.

7:37

El truco tuvo que estar en los detalles del modelo, ¿no?

7:39

¿Qué tenía por dentro?

7:41

Para que funcionara tan bien.

7:42

Esa es la clave.

7:44

No eran solo los ingredientes, era la receta.

7:47

Y el paper es muy claro sobre cuáles fueron sus trucos.

7:49

El primero, y según ellos el más importante, fue cambiar una pieza minúscula, la función de activación.

7:57

Usaron algo llamado ReLU.

7:59

Rectified Linear Units.

8:02

Suena muy técnico, pero la idea es casi ridículamente simple.

8:05

Es insultantemente simple.

8:07

Las redes de la época usaban funciones matemáticamente complejas.

8:11

Como las sigmoides, que se saturan.

8:14

Hacen que el aprendizaje sea muy lento.

8:16

Agónicamente lento. ReLU es simplemente la función max 0,x.

8:21

Si la señal es negativa, la neurona se apaga. Si es positiva, la deja pasar tal cual.

8:26

Es trivial.

8:27

¿Y el efecto?

8:28

Demoledor. El paper demuestra que las redes con ReLU entrenaban hasta seis veces más rápido.

8:35

¿Seis veces? Es una locura.

8:37

Sin esa simpleza, probablemente no habrían tenido tiempo de entrenar su modelo para la computadora.

8:41

Es fascinante que la solución no fuera un algoritmo más complejo, sino radicalmente más simple.

8:47

Fue un shock cultural, totalmente.

8:50

Demostró que a veces la solución más elegante no es la que funciona.

8:53

Pero la velocidad era sólo el primer problema. El siguiente era de pura fuerza bruta.

8:57

¿A qué te refieres?

8:59

Su modelo era tan gigantesco que no cabía en la memoria de una sola GPU de la época.

9:04

Claro. Hablamos de tarjetas con tres gigas de memoria. Hoy nos parece de risa.

9:08

Exacto.

9:09

Un modelo de 60 millones de kilómetros.

9:11

¿De parámetros no entra ahí?

9:13

Parecía un obstáculo insalvable. ¿Cómo lo solucionaron?

9:16

Con pura ingeniería. Partieron la red por la mitad, entrenaron unas capas en una GPU y el resto en otra.

9:24

Y las comunicaban en puntos concretos.

9:27

Y al hacerlo descubrieron algo que no se esperaban.

9:30

Algo fascinante. El sistema se autoorganizó. Observaron que cada GPU se especializaba de forma espontánea.

9:38

¿Cómo que se especializaba?

9:39

¿Cómo se especializaba?

9:39

Pues, por ejemplo.

9:41

Los filtros de una GPU aprendieron a ignorar el color. Se especializaron en detectar bordes, texturas, formas.

9:48

Entiendo.

9:49

Mientras la otra GPU se especializó justo en lo contrario, en detectar manchas de color.

9:55

El sistema creó por sí mismo una especie de hemisferio para la forma y otro para el color.

10:01

Eso es alucinante. Es casi biológico.

10:04

Totalmente. Vale, ya tienen un modelo que entrena rápido y que cabe en las máquinas.

10:09

Pero ahora viene…

10:11

El gran fantasma de las redes neuronales. El sobreajuste. El enemigo a batir.

10:17

El riesgo de que el modelo se memorizara las fotos en lugar de aprender a generalizar.

10:22

¿Y qué hicieron para evitarlo?

10:24

Usaron un arsenal de técnicas, pero dos fueron revolucionarias.

10:28

La primera, el data augmentation. El aumento de datos.

10:32

La idea de… si no tienes suficientes datos, invéntatelos.

10:37

Exactamente. De cada imagen extraían múltiples recortes de datos.

10:41

Múltiples, aleatorios y también sus reflejos, como en un espejo.

10:45

Con esa técnica tan simple, multiplicaron el tamaño de su dataset por un factor de 2.048.

10:51

Brutal. Una forma barata de generar una cantidad ingente de datos.

10:56

¿Y la segunda técnica? Porque esta sí que se ha convertido en un estándar absoluto.

11:00

La segunda es dropout. Una de las ideas más brillantes y contraintuitivas del deep learning propuesta por el propio Hinton.

11:07

¿Qué consiste en…?

11:09

Durante el entrenamiento, en cada paso de la carrera, se han convertido en un estándar absoluto.

11:11

En este caso, apagas al azar la mitad de las neuronas. Simplemente no participan.

11:16

Parece una locura. Estás haciendo que tu red sea más tonta a propósito. ¿Por qué funciona eso?

11:22

Porque la obliga a ser robusta. Evita que una neurona dependa demasiado de una característica concreta, porque sabe que en cualquier momento puede desaparecer.

11:30

La fuerza a aprender representaciones redundantes. Exacto. Al final, todas las neuronas se vuelven más versátiles.

11:37

El paper es tajante. Sin dropout, su red sufría de un sobreajuste.

11:41

Un sobreajuste sustancial.

11:42

Entiendo que, además de esto, hubo otros retoques más finos.

11:45

Sí, y eso demuestra la atención al detalle que pusieron. Mencionan una normalización inspirada en la biología y una técnica de pooling solapado. Cada una arañó alguna décima al error.

11:55

¿Fueron el pulido final?

11:57

Eso es. Pero las grandes palancas fueron relu, los datos aumentados y, sobre todo, dropout.

12:04

El impacto de todo esto fue… sísmico. No fue solo ganar una competición.

12:10

No.

12:11

Fue demostrarle a todo un campo de investigación que el camino que la mayoría seguía estaba equivocado. Y que esa vía excéntrica de las redes profundas era el futuro.

12:21

Un cambio de paradigma total.

12:23

Instantáneo. Hay un gráfico muy famoso del repositorio científico Archive. Durante años, la línea de papers de IA es casi plana. Y en 2012…

12:33

Se convierte en una pared vertical.

12:35

Una pared vertical que no ha dejado de crecer. Alex Nett abrió las compuertas.

12:41

Toda la comunidad, y poco después la industria, pivotó masivamente hacia el deep learning.

12:46

Y la propia competición, el ILSBRC, es el mejor termómetro de esa revolución.

12:51

El mejor. Siguió hasta 2017. Para entonces, la mayoría de modelos ya superaban el umbral del 5% de error que se considera rendimiento sobrehumano.

13:01

En solo 5 años.

13:02

En 5 años pasamos de luchar por un 25% a superar la capacidad humana. Todo gracias a la explosión que inició Alex Nett.

13:11

Mirando hacia atrás, leyendo el paper, ¿eran ellos conscientes de la revolución que estaban desatando?

13:17

El párrafo final es que es profético. Pone la piel de gallina. Señalan dos cosas. Primero, dicen que no usaron pre-entrenamiento no supervisado, pero que esperaban que fuera una vía muy fructífera.

13:31

Que hoy es el pilar de los modelos como GPT. Lo vieron venir.

13:34

Lo vieron venir. Y la segunda parte de la profecía es aún más potente.

13:38

¿Qué dicen? ¿Concluyen diciendo…?

13:41

Más o menos.

13:43

Nuestros resultados mejoran cuanto más grande hacemos la red y más tiempo la entrenamos.

13:49

La receta de la última década.

13:51

Y terminan con una frase increíble.

13:53

Pero todavía nos quedan muchos órdenes de magnitud para igualar la vía inferotemporal del sistema visual humano.

14:01

Alucinante.

14:03

O sea, en su momento de mayor triunfo, ya están diciendo, esto es solo el principio y el camino a seguir es la escala.

14:09

¿Más datos?

14:11

Modelos más grandes, más computación.

14:14

Dejaron clarísimo que el rendimiento estaba ligado a la escala, pero que la brecha con la biología seguía siendo abismal.

14:21

AlexNet no fue un invento milagroso. Fue la sinergia perfecta de tres pilares.

14:26

Datos masivos, gracias a ImagenNet.

14:29

Computación paralela asequible, gracias a las GPUs de los videojuegos.

14:33

Y una arquitectura de red profunda, resucitada con innovaciones clave como Relu y Dropout, que por fin la hicieron entrenable.

14:40

Esa es la síntesis perfecta. AlexNet no solo resolvió un problema de visión. Cambió las reglas del juego para toda la IA.

14:47

Demostró que la escala, tanto de datos como de modelo, era un camino tremendamente poderoso hacia la inteligencia.

14:54

Lo que nos deja con una pregunta final. Para reflexionar sobre dónde estamos hoy, más de una década después.

15:00

Así es. En 2012, el equipo de Hinton identificó la escala como el camino. Pero reconoció la enorme brecha con el cerebro.

15:08

Hoy, operamos con modelos miles de veces más grandes.

15:12

Entrenados con datasets que hacen que ImagenNet parezca un juguete.

15:16

Exacto. La pregunta que sigue en el aire es, ¿estamos simplemente escalando la misma idea fundamental que ellos propusieron?

15:23

¿O hemos descubierto en este tiempo nuevos principios que nos acerquen de verdad a esa vía infratemporal del cerebro?

15:29

Dicho de otro modo, ¿es la inteligencia solo una cuestión de escala computacional?

15:33

¿O nos siguen faltando piezas conceptuales que ni siquiera el Big Bang de AlexNet llegó a iluminar?

15:38

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

15:53

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.