E026_La era de los LLMs de 1 solo bit
Ep. 26

E026_La era de los LLMs de 1 solo bit

Episode description

🚀 ¿Estamos ante una revolución en la eficiencia de la IA? En este episodio desgranamos el fascinante paper “The Era of 1-bit LLMs”, donde se presenta BitNet b1.58, una variante que promete cambiar las reglas del juego. A diferencia de los modelos tradicionales que requieren gran precisión, esta arquitectura reduce cada parámetro a un sistema ternario {-1, 0, 1}. ¿Lo más sorprendente? 🧠 Logra igualar el rendimiento y la perplejidad de los modelos Transformer de precisión completa (FP16) pero con un consumo de recursos drásticamente menor. ⚡ Este avance no es solo una curiosidad técnica; define una nueva ley de escalado para el entrenamiento de futuras generaciones de LLMs. Analizamos cómo esta tecnología consigue ser mucho más rentable en términos de latencia, memoria y consumo energético, abriendo además la puerta al diseño de hardware específico optimizado para 1-bit. 📉 Si quieres entender cómo la inteligencia artificial puede volverse más sostenible, rápida y accesible sin sacrificar potencia, dale al play y acompáñanos en este análisis. 🎧 Fuentes relevantes: • The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits (arXiv)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidos. Volvemos a la carga con nuestra serie especial de BIMPRAXIS, los papers que cambiaron la historia de la IA.

0:45

Pues sí.

0:46

Ya vamos por el duodécimo análisis y la verdad cada vez se pone más interesante.

0:52

Totalmente. Y el que traemos hoy es de los que te dejan pensando días. Es muy reciente, de febrero de 2024, pero el revuelo que ha montado es tremendo.

1:02

A ver, cuenta.

1:03

Se titula The Era of One-Bit LLMs. All Large Language Models are in 1.58 Bits.

1:10

Uf, el título ya es una bofetada a todo lo establecido.

1:15

La era de los LLMs.

1:16

El LLM es de un bit. Suena casi a herejía.

1:19

Es que es muy provocador.

1:20

Vale, vamos a meternos en este jardín.

1:22

La misión de hoy es entender qué demonios es un modelo de lenguaje de un bit.

1:27

¿Por qué narices dicen que rinde igual que los gigantes actuales?

1:31

Y sobre todo, ¿qué puertas abre esto para el futuro?

1:33

Exacto. Si esto es una afantasmada o si de verdad es la próxima revolución.

1:37

Pues esa es la clave. Vamos a desgranar las afirmaciones del equipo de Shuming Ma, que son de una audacia increíble,

1:45

y a explicarles cómo es posible que el mundo no sea así.

1:46

Y a explorar si de verdad estamos a las puertas de una nueva era para la IA, una mucho más eficiente y accesible.

1:52

Perfecto. Pues antes de hablar de la cura milagrosa, hablemos un poco de la enfermedad, el problema de base.

1:59

El coste.

1:59

Claro. Los grandes modelos de lenguaje que usamos todos los días son una pasada.

2:05

Pero tienen un secreto a voces. Son carísimos. De entrenar, de mantener, de todo.

2:10

El paper habla de los modelos de precisión completa, o FP16.

2:15

¿Qué es el paper?

2:15

Para quien no esté en el ajo. ¿Qué es esto en cristiano?

2:18

A ver, imagina que el cerebro del modelo está hecho de millones de pequeñas neuronas, que en la jerga se llaman parámetros o pesos.

2:26

Vale.

2:26

Son los que almacenan el conocimiento. En un modelo estándar, uno de FP16, cada una de esas neuronas se representa con un número de 16 bits.

2:35

Pues significa que cada parámetro puede tener unos 65.000 valores distintos. Es un nivel de detalle de matiz altísimo.

2:45

Muchísimo.

2:46

Piensa en un potenciómetro de volumen que, en lugar de ir de 0 a 10, tiene 65.000 posiciones intermedias.

2:53

Esa precisión permite capturar relaciones muy sutiles en los datos, pero tiene un coste.

2:57

Un coste energético y computacional salvaje, me imagino.

3:01

Exacto. Es como pedirle a un ordenador que para cada mínima decisión haga cálculos con números con muchísimos decimales.

3:08

Requiere una memoria inmensa, una capacidad de proceso brutal y, claro, el consumo de energía se dispara.

3:13

O sea que…

3:14

¿La potencia de estos…?

3:15

Estos modelos vienen de su complejidad y su tamaño. Para ser inteligentes necesitan ser gigantescos y consumir una cantidad de energía absurda.

3:24

Esa ha sido la premisa hasta ahora. Más parámetros, más datos, más bits de precisión, igual a más inteligencia. Es una carrera armamentística de fuerza bruta.

3:33

El peaje que pagamos, ¿no?

3:35

Justo. El peaje por tener una IA potente es que sea ineficiente por diseño.

3:39

Pero claro, aquí llega este paper y le pega una patada a la mesa.

3:43

La pregunta que lanzan es demoledora en su simplicidad. ¿Y si toda esa precisión, todo ese despilfarro, no es necesario?

3:54

Justo. Cuestionan el dogma. Se preguntan si estamos construyendo rascacielos con vigas de oro macizo cuando a lo mejor, con acero, nos valía. Y de sobra.

4:03

Vale, y aquí es donde la cosa se pone de ciencia ficción. La propuesta que hacen se llama BitNet B1.5. Y rompe la baraja por completo.

4:13

En lugar de sus 65.000 valores posibles por parámetro…

4:16

Lo reducen a 3.

4:18

¿Cómo que a 3?

4:19

A 3. No es una errata. Cada parámetro solo puede ser menos 1, 0 o 1. Sácaro.

4:24

Un momento, un momento. O sea, o está encendido en negativo, apagado o encendido en positivo.

4:32

Eso es. Es lo que se conoce como un sistema ternario.

4:36

Pero es que esto es tan simple que parece absurdo. Pasamos de un dial con 65.000 posiciones a un interruptor de 3.

4:43

Y afirman que el resultado es el mismo. A mí esto me suela que hay truco.

4:47

Es que es tan contraintuitivo que choca. Pero la clave está en el título. En ese 1.58 bits. No es un número puesto al azar, ¿eh?

4:56

Explícame de dónde sale ese número tan específico porque no es un bit ni es dos bits. ¿Qué es 1.58?

5:03

A ver, es una forma muy precisa de medir la cantidad de información. La unidad básica, el bit, tiene dos estados. 0 y 1.

5:11

Sí, hasta ahí llego.

5:12

¿Qué es eso?

5:12

Para saber cuántos bits necesitas para representar un número de estados, usas el logaritmo en base 2 de ese número de estados.

5:19

Para dos estados, logaritmo en base 2 de 2 es 1.

5:23

¿Un bit?

5:23

Lógico.

5:24

Pues para representar tres estados, como aquí con menos 1, 0, 1, necesitas el logaritmo en base 2 de 3.

5:31

Y eso da aproximadamente 1.5849.

5:35

Ah, vale.

5:36

Lo redondean a 1.58.

5:38

Es su manera de decir, ojo, hemos reducido la información necesaria.

5:42

Es una reducción brutal, pero la afirmación que te vuela la cabeza, la que está en el abstract y que todo el mundo está debatiendo…

5:55

La de que iguala el rendimiento, ¿no?

5:56

Esa. Que este modelo esquelético iguala el rendimiento del transformer de precisión completa del mismo tamaño. Es que me parece increíble.

6:06

Sí, sí, lo es.

6:06

Es como si me dices que has construido un coche con el motor de un avespino y corre lo mismo con Fórmula 1.

6:12

¿Cómo es posible?

6:14

Esa es la pregunta del millón. Y el núcleo de la disrupción.

6:18

El paper sugiere que, bueno, que nos hemos estado equivocando de foco.

6:22

¿En qué sentido?

6:23

O menos 1, 0 o 1, el modelo aprende a ser extremadamente eficiente.

6:28

No se anda con tonterías.

6:30

O una conexión es importante y la pone a 1 o menos 1.

6:33

O no lo es y la pone a 0. La anula.

6:35

Es como si en una orquesta lo importante no fuera que cada músico pueda tocar miles de matices sutiles,

6:42

sino que todos toquen la nota correcta en el momento justo.

6:46

Es una analogía fantástica.

6:48

La magia está en la coordinación, no en la complejidad individual.

6:52

Exactamente.

6:53

Parece que este enfoque obliga a la red a aprender las rutas de información más importantes y a descartar el ruido.

6:58

Se centra en lo esencial.

7:00

Y lo más loco es que, según ellos, lo esencial es sufriente para igualar a sus hermanos mayores, los de 16 bits.

7:06

Vale, vamos a asumir por un momento que no es un farol, que es cierto.

7:10

Si el rendimiento es el mismo,

7:12

pero el coste computacional, la memoria y la energía se desploman,

7:16

las consecuencias tienen que ser gigantescas.

7:19

Gigantescas.

7:20

No hablamos de una mejora, hablamos de un cambio de paradigma.

7:23

Totalmente.

7:24

El paper no se corta y habla de tres consecuencias transformadoras

7:28

que van mucho más allá de ahorrar en la factura de la luz.

7:32

Esto no es una optimización, es una reinvención.

7:35

Pues vamos a por ellas. ¿Cuál es la primera?

7:38

La primera es que define una nueva ley de escalado.

7:40

Esto suena muy técnico.

7:42

Sí, es técnico, pero es cambiar las reglas del juego.

7:44

A ver.

7:45

Hasta ahora, la ley no escrita, la de OpenAI, Google y compañía,

7:49

era que para tener modelos más potentes necesitabas escalar exponencialmente tres cosas.

7:54

Número de parámetros, cantidad de datos y cómputo.

7:57

Más grande siempre era mejor.

7:58

Diciendo que la carrera por hacer modelos cada vez más gigantescos,

8:03

los GPT-5, 6 y 7, podría ser un callejón sin salida energético y económico.

8:08

Eso es lo que sugieren.

8:10

Que la nueva ley podría ser...

8:12

¿Más eficiente es mejor en lugar de más grande es mejor?

8:15

Exactamente eso.

8:17

Proponen una nueva receta para construir los modelos del futuro.

8:20

Una donde la eficiencia no es algo que intentas apañar al final,

8:24

sino que está integrada en el diseño desde el principio.

8:27

Podría significar que el camino a la inteligencia artificial general

8:29

no es la fuerza bruta, sino la inteligencia en el diseño.

8:33

Me dejas sin palabras. Es un hordago a la grande.

8:36

Vale. ¿Cuál es la segunda consecuencia?

8:38

La segunda es que habilita un nuevo paradigma de computación.

8:42

A ver, las GPUs, los chips de NVIDIA, que son los reyes absolutos de la IA,

8:47

son extraordinariamente buenas haciendo una cosa.

8:51

Multiplicaciones masivas de números complejos y de alta precisión.

8:54

Los de 16 bits.

8:56

Toda la arquitectura está pensada para eso.

8:58

Pero claro, un modelo que solo tiene los valores menos uno, cero y una,

9:03

no necesita multiplicar casi nada.

9:05

Ahí está.

9:06

Multiplicar por uno es dejar el número como está,

9:08

por menos uno es cambiarle el signo y por cero es anularlo.

9:12

La operación principal pasa a ser la suma.

9:14

Justo.

9:15

Y usar una GPU de 5.000 euros para sumar y restar

9:18

es como usar un martillo pilón para cascar una nuez.

9:21

Es un derroche absoluto de potencial.

9:23

Entiendo.

9:24

Este paper abre la puerta a un tipo de computación mucho más simple,

9:28

que sería muchísimo más rápida y eficiente energéticamente.

9:31

Y eso nos lleva de cabeza a la tercera consecuencia,

9:34

que si no me equivoco es la que más nos va a afectar a todos.

9:37

La posibilidad de crear hardware específico.

9:40

Y aquí es donde la cosa se va.

9:42

Ahora se pone realmente tangible.

9:44

Si ya no necesitas la arquitectura de una GPU,

9:47

podrías diseñar un chip nuevo,

9:49

llamémosle un Bit Processing Unit o BPU,

9:54

optimizado solo para trabajar con estos modelos de 1.58 bits.

9:58

¿Y serían chips?

9:59

Mucho más sencillos, más pequeños, más baratos de producir

10:03

y, sobre todo, consumirían una fracción de la energía.

10:06

Pero seamos realistas.

10:08

Eso es un ciclo de desarrollo de años y una inversión de miles de millones.

10:12

¿De verdad una empresa como NVIDIA, que tiene un monopodio de facto,

10:16

va a tirar por la borda décadas de I plus D por un paper?

10:19

Esa es la gran pregunta comercial, claro.

10:21

A corto plazo, seguramente no.

10:24

Pero si esta tecnología demuestra ser viable,

10:26

la presión del mercado podría ser irresistible.

10:29

Claro.

10:29

Imagina que un nuevo competidor diseña un chip de estos

10:32

y ofrece el mismo rendimiento por una décima parte del precio y del consumo.

10:37

O piensa en Apple, Google o Samsung,

10:39

diseñando sus propios chips para sus móviles.

10:42

Ahí es donde quería llegar.

10:44

La idea de tener una IA con la potencia de GPT-4,

10:47

pero funcionando de forma nativa en mi teléfono,

10:50

sin necesidad de conexión a Internet.

10:52

Eso es el verdadero cambio de juego.

10:54

Exacto.

10:55

Las implicaciones son brutales.

10:57

Primero, la privacidad.

10:58

Tus datos no salen de tu dispositivo.

11:00

Fundamental.

11:01

Segundo, la latencia.

11:03

La respuesta es instantánea.

11:04

Y tercero, el acceso.

11:06

Democratizaría la IA de alto nivel.

11:08

Gente en zonas con mala conectividad tendría acceso a la misma tecnología.

11:12

Asistentes personales realmente inteligentes en el coche,

11:15

en el reloj, en cualquier sitio, sin depender de la nube.

11:18

Justo.

11:19

Vale, vamos a recapitular para que no se nos vaya la cabeza.

11:23

El problema es que los modelos actuales son como motores de un Bugatti Veyron.

11:28

Increíblemente potentes.

11:29

Pero necesitan un tanque de combustible gigantesco.

11:32

Y un mantenimiento carísimo.

11:34

Y una autopista perfecta para funcionar.

11:36

Son un prodigio de la fuerza bruta.

11:38

Buena analogía.

11:40

Y la solución que propone...

11:42

Este equipo es como si hubieran inventado un motor eléctrico del tamaño de una pila que da la misma potencia.

11:47

Y lo consiguen cambiando el diseño.

11:49

En lugar de miles de ajustes de precisión, los 16 bits usan un simple interruptor de tres posiciones.

11:55

Menos uno, cero y uno.

11:57

Lo que equivale a 1.58 bits.

12:00

Y la afirmación bomba es que este motor minimalista rinde igual que el motor gigante.

12:05

Si esto se confirma, no solo abarata los costes de la IA.

12:08

No, no.

12:09

Sino que podría cambiar las reglas para construir...

12:12

...el tipo de chips que usaremos y, finalmente, permitiría que la IA más potente viva dentro de nuestros propios bolsillos.

12:19

En resumen, no es una mejora.

12:21

Es una de esas ideas que te obliga a repensar todo lo que dabas por sentado.

12:25

Cuestiona la base sobre la que se ha construido la IA en los últimos cinco años.

12:29

Esto me deja con una pregunta que va más allá de la propia IA.

12:33

¿Estamos construyendo nuestros modelos de una forma innecesariamente compleja solo por inercio?

12:39

Porque es la única manera que...

12:42

...hemos conocido hasta ahora.

12:43

Esa es la gran reflexión que deja este trabajo de Xu Ming-Ma y su equipo.

12:47

A veces, en tecnología, nos obsesionamos tanto con escalar la solución que ya tenemos...

12:51

...que no nos paramos a pensar si existe una solución fundamentalmente más simple y elegante.

12:55

Cierto.

12:56

Este paper, sea cual sea su impacto final, es un recordatorio de que a veces el mayor salto adelante...

13:02

...no es añadir más complejidad, sino atreverse a quitarla.

13:06

La verdad es que te deja dándole vueltas a la cabeza.

13:09

Un análisis fascinante.

13:11

Muchas gracias por guiarnos a través de este laberinto.

13:14

Un placer.

13:16

Es que es de esos trabajos que te remueven por dentro y te fuerzan a cuestionarlo todo.

13:20

Totalmente.

13:21

Y para quienes nos escuchan, y se han quedado con ganas de más, que no se preocupen.

13:26

Mañana volvemos a la carga con otro de esos papers que te obligan a replantearlo todo.

13:30

Otro muy interesante.

13:32

No se lo pierdan.

13:59

Nos escuchamos en el próximo episodio.