E025_Mamba: Nueva Arquitectura Eficiente para la IA
Ep. 25

E025_Mamba: Nueva Arquitectura Eficiente para la IA

Episode description

🧠 ¿Es el fin del dominio absoluto de los Transformers? Aunque los modelos actuales son increíbles, tienen un talón de Aquiles: se vuelven ineficientes con textos muy largos. En este episodio, exploramos el revolucionario paper “Mamba”, una nueva arquitectura presentada por Albert Gu y Tri Dao que propone una alternativa fascinante: los Espacios de Estados Selectivos (SSMs). Descubre cómo este modelo logra realizar un razonamiento basado en el contenido —la pieza que faltaba en las alternativas anteriores— permitiendo propagar o descartar información selectivamente, todo sin necesidad de los costosos bloques de atención ni MLPs. 🚀 ⚡ Más rápido, más eficiente y con un alcance masivo. Analizamos los impresionantes resultados de Mamba: una inferencia 5 veces más rápida que los Transformers y un escalado lineal capaz de procesar secuencias de hasta un millón de longitud. Lo más sorprendente es que el modelo Mamba-3B no solo supera a Transformers de su mismo tamaño, sino que iguala el rendimiento de aquellos que son el doble de grandes. Si quieres entender el futuro de la IA en lenguaje, audio y genómica, dale al play para conocer la arquitectura que promete redefinir el Deep Learning. 🎧✨ Fuentes: • Mamba: Linear-Time Sequence Modeling with Selective State Spaces (arXiv:2312.00752)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a una nueva inmersión en el conocimiento.

0:40

Retomamos hoy nuestra serie para BIMPRAXIS sobre los papers que cambiaron la historia de la IA

0:45

y, si no me equivoco, este es ya el undécimo capítulo.

0:49

El undécimo, sí. Y hoy nos toca uno que, bueno, cuando se publicó causó un revuelo considerable.

0:56

¿Ah, sí?

0:57

Sí, sí. Es un trabajo que mete el dedo directamente en la llaga de uno de los mayores cuellos de botella de la inteligencia artificial moderna.

1:05

Hablas de la eficiencia, ¿verdad?

1:07

Porque, a ver, todos estamos maravillados con lo que hacen los grandes modelos de lenguaje, los chat GPT y compañía,

1:13

pero, tras bambalinas...

1:15

Su arquitectura base, el famoso Transformer, tiene un talón de Aquiles enorme.

1:19

Enorme. Es increíblemente potente, pero es que devora recursos de una manera brutal.

1:26

El coste computacional se dispara de forma exponencial.

1:28

O sea que llega un punto en que es insostenible. No puedes darle una novela entera o un genoma completo

1:33

porque la factura de computación, vamos, se iría a la estratosfera.

1:37

Exacto. Y justo ahí, en ese lío, es donde aparece el paper del que vamos a hablar hoy.

1:41

Mamba.

1:42

Modelado de secuencias en tiempo lineal con espacios de estado...

1:45

De estado selectivos. De Albert Gu y Tridau.

1:48

Por el título entiendo que su misión era precisamente romper esa maldición cuadrática.

1:53

Justo esa. Su objetivo era crear una arquitectura que fuera tan inteligente y capaz de entender el contexto como un Transformer,

2:00

pero sin esa tara de la eficiencia. Querían un modelo lineal.

2:05

Que para leer un libro el doble de largo, solo necesitará el doble de esfuerzo.

2:09

Eso es. Un crecimiento sostenible.

2:12

Y vamos a ver que la forma en que lo consiguen es...

2:15

De una elegancia asombrosa.

2:17

Entendido. O sea, el Transformer es potente pero ineficiente con textos largos.

2:22

Pero, para entender por qué Mamba es una solución tan ingeniosa,

2:26

supongo que primero tenemos que meternos en las tripetas del Transformer.

2:29

Hay que ver dónde está el problema, sí.

2:31

Hablas del mecanismo de atención. ¿Ese es el culpable?

2:33

Es el héroe y el villano de la película. Las dos cosas.

2:37

La atención es lo que le da al Transformer su superpoder.

2:39

Le permite, para entender una palabra,

2:45

las palabras de la secuencia. Todas.

2:47

Sin importar lo lejos que estén.

2:49

Exacto. Dame un ejemplo práctico. Pues mira.

2:52

Imagina una novela de misterio.

2:54

En la página 300, el detective dice

2:56

Lo supe cuando vi su reacción.

3:00

¿Vale?

3:00

El mecanismo de atención permite al modelo conectar ese su

3:03

con, no sé, el nombre de un sospechoso que se mencionó en la página 15.

3:08

Ah, claro. Eso es lo que le da esa profunda comprensión del contexto.

3:12

Sí, pero el problema es cómo lo hace.

3:14

Para hacer eso, la palabra su ha tenido que mirar y compararse

3:19

con cada una de las miles y miles de palabras de las 299 páginas anteriores.

3:25

Uf. O sea, que para cada nueva palabra se crea una red de conexiones con todo lo anterior.

3:30

Sí. Y esa red es la que crece de forma exponencial y se vuelve inmanejable.

3:35

Precisamente. Y ahí está el dilema.

3:37

Esa capacidad de mirarlo todo es lo que hace a los Transformers tan buenos,

3:41

pero también lo que los frena.

3:43

Y claro.

3:43

¿Por qué?

3:44

Muchos han intentado solucionarlo.

3:46

Muchísimos. El campo está lleno de arquitecturas alternativas.

3:50

Atención lineal, modelos recurrentes, los llamados modelos de espacio de estados o SSMs.

3:57

Pero si entiendo bien, todos se quedaban a medias.

4:00

Eran más rápidos, solucionaban el problema de la eficiencia.

4:03

Pero perdían algo por el camino. No eran tan listos como los Transformers.

4:07

Exacto. Es como si hubieran intentado construir un coche de Fórmula 1 con el consumo de un utilitario.

4:13

Exacto.

4:14

Lo que tienes es un coche que consume poco, sí, pero que no gana carreras.

4:17

Justo. Perdían esa finura en la comprensión del lenguaje.

4:21

El paper de Mamba es brillante porque, primero,

4:24

diagnostica con una precisión quirúrgica por qué fallaban esos intentos.

4:28

¿Y cuál es el diagnóstico? ¿Qué se perdía exactamente?

4:32

Lo que los autores llaman razonamiento basado en el contenido.

4:35

A ver.

4:36

La atención de un Transformer es selectiva por naturaleza.

4:39

Para entender la frase del detective, decide que el nombre del sospechoso en la página 15,

4:43

es crucial, pero que el color de las cortinas en la página 80 es… irrelevante.

4:49

Claro.

4:50

Los modelos más rápidos y eficientes que existían antes de Mamba no tenían esa capacidad de discernir.

4:55

Es decir, trataban toda la información pasada como si fueran más o menos igual de importante.

5:00

Eso es. Es como tener una memoria fotográfica perfecta, pero sin un índice.

5:05

Lo recuerdas todo, pero no sabes qué es lo relevante en cada momento.

5:08

Y se ahogaban en información.

5:10

Se ahogaban en información irrelevante, en ruido.

5:13

Y en tareas complejas como el lenguaje, esa sutileza lo es todo.

5:17

Vale. Aquí es donde mi cerebro empieza a hacer cortocircuito.

5:20

Si los modelos anteriores eran o rápidos y tontos, o lentos e inteligentes,

5:25

¿me estás diciendo que los autores de Mamba encontraron un tercer camino?

5:29

Un tercer camino que nadie había visto.

5:31

Proponen una solución que llaman selectividad.

5:34

¿En qué consiste esto?

5:36

Aquí está la genialidad.

5:38

Introducen los modelos de espacio de estados selectivos, o SSSM,

5:43

y la idea es revolucionaria.

5:45

En lugar de que el modelo siga unas reglas fijas para procesar la información,

5:50

esas reglas cambian dinámicamente dependiendo de lo que está leyendo en ese preciso instante.

5:56

Espera un momento. Eso me suena increíblemente complejo, casi caótico.

6:01

Si las reglas del juego cambian con cada palabra,

6:03

¿cómo se asegura el modelo de mantener una coherencia?

6:07

Es una pregunta excelente, y es justo el desafío técnico que tuvieron que resolver.

6:11

Pero conceptualmente, la idea es revolucionaria.

6:13

Finalmente, piensa en cómo leemos nosotros.

6:15

Vale.

6:15

No le damos la misma importancia a cada palabra.

6:19

Cuando leemos el rey Juan Carlos, nuestro cerebro activa un estado de atención alta.

6:24

¿Sabe qué es importante?

6:26

Si leemos Fuea, baja la intensidad.

6:29

Estamos constantemente filtrando y priorizando.

6:32

Y Mamba le da esa misma capacidad a la máquina.

6:35

Exacto.

6:36

El modelo puede decidir sobre la marcha.

6:38

Acabo de leer un dato crucial, lo marco como importante,

6:41

y me aseguro de que esta información es importante.

6:42

y me aseguro de que esta información es importante.

6:42

Y me aseguro de que esta información se propague hacia adelante en mi memoria.

6:45

Y esto otro es paja, lo olvido para no saturarme.

6:48

Justo.

6:49

Es un filtro de relevancia integrado en su propio ADN.

6:52

Es una forma de imitar la intuición.

6:54

Has dado en el clavo.

6:55

Esa capacidad de comprimir la información irrelevante y preservarla relevante

7:00

es lo que le permite recordar detalles clave a lo largo de secuencias larguísimas.

7:05

Emulando lo que hacía la atención del Transformer.

7:07

Y a conservar sólo lo esencial.

7:09

Es brillante.

7:11

Pero me sigue rondando la cabeza el problema de que la información es importante.

7:12

Pero me sigue rondando la cabeza el problema de que la información es importante.

7:14

Me has dicho que los modelos rápidos anteriores usaban un truco para su velocidad.

7:18

Las convoluciones, sí.

7:20

Al hacer que Mamba sea selectivo, ¿no se cargan ese truco?

7:23

Totalmente.

7:24

Y ese es el segundo acto de genialidad de este paper.

7:27

Los SSMs no selectivos usaban un truco matemático.

7:31

Las convoluciones.

7:32

Para que nos entendamos, es como usar una plantilla o un filtro que se desliza sobre todo el texto a la vez.

7:38

En lugar de leer palabra por palabra,

7:40

aplicas un patrón fijo a todo el párrafo de golpe.

7:43

Sí, y es increíblemente rápido porque es una operación que las GPUs, las tarjetas gráficas,

7:48

pueden hacer en paralelo masivamente.

7:50

Pero claro, el truco sólo funciona si la plantilla es siempre la misma.

7:55

Si la plantilla cambia con cada palabra, como en Mamba…

7:58

¿Adiós a la velocidad?

7:59

Exacto.

8:00

Parecía un callejón sin salida.

8:02

O eres rápido y usas una plantilla fija, y eres tonto.

8:05

O eres inteligente y usas una plantilla adaptable, y eres lento.

8:09

¿Y qué hicieron?

8:10

Pues algo que muy poca gente hace.

8:13

En lugar de rendirse, diseñaron un nuevo algoritmo desde cero,

8:16

pensando no sólo en las matemáticas, sino en cómo funcionan las GPUs por dentro.

8:21

¿Quieres decir que diseñaron el algoritmo a medida para el propio chip?

8:25

Sí, y esto es clave.

8:26

No sólo un avance en IA, es un avance en la intersección de software y hardware.

8:31

La mayoría de investigadores crean un modelo teórico y luego, bueno,

8:35

rezan para que corra rápido.

8:37

Sí.

8:38

Ellos miraron la arquitectura de memoria de las GPUs.

8:40

Sí. Ellos miraron la arquitectura de memoria de las GPUs.

8:40

Ellos miraron la arquitectura de memoria de las GPUs.

8:41

Cómo gestionan los datos.

8:43

Y crearon un algoritmo que piensa como el propio silicio.

8:46

Un enfoque integral, de la teoría abstracta al metal.

8:50

Y el resultado, según cuentan, es una arquitectura que ellos mismos llaman simplificada.

8:56

A mí esto me fascina, porque en IA, simple no suele ser sinónimo de potente.

9:00

Es que la simplicidad aquí es una consecuencia de su elegancia.

9:04

Se dieron cuenta de que, con su mecanismo selectivo,

9:07

muchas de las piezas que se consideraban sagradas

9:09

en los transformers ya no eran necesarias.

9:12

¿Cómo cuáles?

9:13

Su arquitectura mamba ni siquiera necesita los bloques de atención, obviamente.

9:17

Pero tampoco los bloques MLP.

9:19

Un momento.

9:20

Siempre he oído que los bloques MLP son como el cerebro computacional

9:24

de cada capa del transformer, donde se produce gran parte del razonamiento.

9:28

Si los quitan, ¿con qué los reemplazan?

9:30

Es que no los reemplazan, los eliminan.

9:33

Los eliminan.

9:34

Sí.

9:35

Descubren que la propia dinámica de su sistema selectivo,

9:38

con esa capacidad de filtrar y propagar información,

9:42

ya realiza el tipo de computación que los MLPs hacían de una forma más bruta.

9:47

El resultado es un diseño mucho más limpio, menos piezas móviles.

9:51

Bueno, la teoría es espectacular, pero vamos a la prueba de fuego.

9:55

Funciona.

9:56

¿Cuáles son los resultados en la práctica?

9:58

Porque en el mundo de la IA hay muchos papers con ideas geniales

10:01

que luego no dan la talla.

10:03

Pues aquí es donde la historia se pone aún mejor.

10:07

Los resultados son…

10:08

apabullantes.

10:10

En tareas de inferencia, es decir, cuando el modelo ya entrenado se pone a trabajar,

10:15

Mamba consigue un rendimiento cinco veces superior.

10:18

Cinco veces.

10:19

Cinco veces más rápido que los transformers de tamaño comparable.

10:23

Cinco veces es un salto generacional, no una mejora incremental.

10:27

¿Y qué pasa con el problema original, el del coste que se dispara?

10:30

Solucionado.

10:31

Su coste computacional escala de forma lineal con la longitud de la secuencia, no cuadrática.

10:38

La maldición se ha roto.

10:40

Increíble.

10:41

El paper lo demuestra a consecuencias de hasta un millón de tokens,

10:44

un millón de palabras o fragmentos de palabra.

10:47

Procesar algo así en un transformer era sencillamente ciencia ficción.

10:51

Por su coste, claro. Mamba lo hace viable.

10:54

Lo hace viable. Y ojo, que esto no es sólo para generar textos.

10:57

Mencionaste genomas antes, por ejemplo.

10:59

Efectivamente. El paper demuestra que Mamba alcanza un rendimiento de vanguardia en múltiples modalidades.

11:05

En lenguaje, por supuesto, pero también en audio y en genómica.

11:09

Son campos donde las secuencias son larguísimas por naturaleza.

11:13

Y donde el problema del coste era aún más sangrante.

11:16

Mucho más.

11:17

De todos los datos que das, ¿cuál es para ti el más impactante?

11:20

El que de verdad te hace pensar, esto cambia las reglas del juego.

11:24

Para mí, sin duda, es este.

11:26

Cogen su modelo Mamba de 3.000 millones de parámetros, que ya es un modelo considerable.

11:32

Y no sólo supera a los transformers del mismo tamaño.

11:35

Lo increíble es que iguala el rendimiento de transformers del doble de su tamaño.

11:41

Espera, espera. Repite eso.

11:42

Un Mamba de 3 millones de parámetros rinde igual que un transformer de 6 millones.

11:47

Exactamente.

11:48

Consigue los mismos resultados, la misma calidad, con la mitad de recursos.

11:53

Pero eso tiene unas implicaciones económicas y energéticas brutales.

11:57

Brutales.

11:57

Piensa en el coste de entrenar un modelo de 6.000 millones de parámetros.

12:02

En las miles de GPUs funcionando durante semanas.

12:05

En la factura de la luz.

12:06

Y Mamba demuestra que puedes obtener lo mismo gastando la mitad.

12:10

Gastando la mitad.

12:11

No es sólo más rápido.

12:13

Es dramáticamente más eficiente.

12:15

Entonces, si tuviéramos que destilar la gran lección de este paper, ¿cuál sería?

12:20

Porque está claro que no es sólo un pequeño ajuste.

12:22

Para nada.

12:23

Es un desafío frontal al dominio absoluto de la arquitectura transformer.

12:28

Demuestra que hay vida más allá de la atención.

12:31

Propone una alternativa que no sólo es potente,

12:33

sino radicalmente más eficiente justo en el punto donde los transformers son más débiles.

12:39

Es un cambio de filosofía.

12:40

Pasar de la fuerza bruta de mirarlo todo,

12:43

a la inteligencia selectiva de recordar sólo lo importante.

12:47

Exacto.

12:48

Y eso abre la puerta a aplicaciones que antes eran impensables o prohibitivas.

12:52

Imagina analizar historiales médicos completos de una sola vez para encontrar patrones,

12:57

en lugar de ir trozo a trozo.

12:59

O procesar genomas enteros con una fluidez que acelere la investigación médica.

13:03

O crear asistentes de audio que puedan recordar una conversación de una hora sin perder el hilo.

13:08

Todo gracias a esa idea central.

13:10

El poder de la selectividad.

13:12

Realmente fascinante cómo una idea elegante puede resolver un problema tan masivo.

13:17

Y si este análisis les ha abierto el apetito, no se imaginan lo que tenemos preparado para mañana.

13:23

Exploraremos otro paper que redefine otra pieza clave en el puzle de la inteligencia artificial.

13:28

Antes de cerrar, me gustaría dejar una pregunta en el aire.

13:31

Adelante.

13:32

El hecho de que Mamba iguale a un Transformer del doble de su tamaño nos obliga a reflexionar sobre algo fundamental.

13:39

¿Cuánto del impresionante rendimiento de los grandes modelos actuales se debe a la pura fuerza bruta computacional,

13:45

a hacerlos más y más y más grandes, y cuánto se debe a la elegancia de su arquitectura?

13:51

Es una muy buena pregunta.

13:52

Mamba sugiere que la elegancia y el diseño inteligente podrían llevarnos mucho más lejos,

13:59

y de forma mucho más sostenible,

14:01

de lo que la fuerza bruta jamás podrá.

14:04

Y hasta aquí el episodio de hoy.

14:16

Muchas gracias por tu atención.

14:28

Esto es BIMPRAXIS.

14:30

Nos escuchamos en el próximo episodio.