E073_TurboQuant_Comprimir_la_KV-Cache_de_contexto
Ep. 73

E073_TurboQuant_Comprimir_la_KV-Cache_de_contexto

Episode description

Episodio de BIMPRAXIS: TurboQuant, la técnica de Google para correr modelos de lenguaje gigantes en cualquier ordenador

TurboQuant, una innovadora técnica desarrollada por Google, permite ejecutar modelos de lenguaje gigantes en cualquier ordenador sin perder precisión. Esta técnica logra comprimir el espacio necesario hasta seis veces y acelerar el proceso general, revolucionando la forma en que se procesan los modelos de inteligencia artificial. Con TurboQuant, se puede procesar una cantidad mucho mayor de información sin necesidad de hardware adicional, lo que abre nuevas posibilidades para la investigación y el desarrollo de aplicaciones de IA.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:41

de BIMPRAXIS.

0:42

Hoy os traemos TurboQuant, la técnica de Google

0:45

que hace viable correr modelos de lenguaje gigantes

0:48

en cualquier ordenador.

0:50

Bueno, imaginemos por un momento intentar meter el

0:53

océano Atlántico entero en una piscina olímpica.

0:56

Madre mía.

0:56

Y encina sin derramar ni una sola gota.

0:58

Pues esa es exactamente la clase de paradoja

1:01

física y matemática que ocurre dentro de un

1:03

ordenador cuando un modelo de inteligencia artificial se

1:06

queda sin memoria.

1:07

Es un problema monumental.

1:09

O sea, cualquiera que haya intentado experimentar con

1:11

IA.

1:12

De forma local, en su propia máquina, se

1:14

ha chocado contra este mismo muro.

1:16

Exacto, el muro del ladrillo de la memoria

1:18

de vídeo, la VRAM.

1:20

Te pones a procesar un texto largo, el

1:22

modelo empieza a leer, parece que todo va

1:24

fluido y de repente ¡pum!

1:26

La pantalla te arroja el temido error de

1:28

falta de memoria.

1:29

El cerebro del sistema simplemente colapsa.

1:32

Intenta retener demasiada información al mismo tiempo y

1:35

no da más de sí.

1:36

Y claro, es una frustración enorme.

1:39

Una barrera que frena muchísima innovación.

1:42

A nivel local.

1:43

Por eso, la misión de nuestra inmersión profunda

1:45

de hoy es comprender cómo el equipo de

1:48

Google Research ha logrado algo que parecía magia.

1:51

O directamente imposible desde el punto de vista

1:53

matemático, fíjate.

1:54

Totalmente.

1:55

Han publicado un estudio donde presentan TurboQuant, que

1:58

es una técnica que resuelve este gigantesco cuello

2:01

de botella.

2:01

Estamos hablando de comprimir el espacio necesario hasta

2:04

seis veces.

2:05

¿Una barbaridad?

2:06

Y acelerar el proceso general.

2:08

Pero lo más alucinante, y ojo a esto,

2:10

es no perder...

2:12

Absolutamente nada de precisión por el camino.

2:14

Esto cambia por completo las reglas del juego.

2:17

Sí, sí, es una pasada para la comunidad.

2:19

Pero, bueno, a ver, para entender la magnitud

2:22

de esta solución técnica, primero hay que mirar

2:25

al problema a los ojos.

2:26

No se puede valorar la genialidad de la

2:28

cura si no se comprende la enfermedad, por

2:31

así decirlo.

2:32

Lógico.

2:32

Y en la arquitectura de los modelos modernos,

2:35

el gran culpable de que los sistemas agoten

2:37

su memoria casi siempre es el mismo componente.

2:40

El famoso caché -caché.

2:42

El caché -cabe, o caché de claves y

2:43

valores.

2:44

Vale, el caché -cabe.

2:45

Quizá convenga detenernos aquí un momentito, porque esto

2:48

suena a jerga de ingeniería muy densa.

2:51

Ya, es verdad.

2:52

Pero en el fondo representa la lógica más

2:54

básica de cómo lee una inteligencia artificial.

2:57

¿Cómo le visualizaríamos esto a alguien ajeno a

3:00

la programación de bajo nivel?

3:01

Pues, a ver, es un mecanismo de supervivencia

3:04

computacional básico.

3:05

Si alguien está leyendo una novela de mil

3:07

páginas y llega al capítulo 10, no necesita

3:10

volver a leer desde la primera página para

3:13

saber quién es el protagonista, ¿verdad?

3:15

Claro.

3:16

El cerebro humano guarda un contexto activo.

3:19

Justo.

3:20

Los modelos de lenguaje necesitan hacer exactamente lo

3:23

mismo.

3:23

El caché -cabe es ese espacio de memoria

3:26

donde el modelo va anotando sus interpretaciones matemáticas

3:29

de las palabras anteriores, los tokens.

3:31

O sea, si el sistema tuviera que recalcular

3:33

toda la lógica desde cero absoluto para cada

3:35

palabra… Tardaría siglos.

3:37

Imagínate repasar todo el documento solo para verlo.

3:41

Sería inasumible.

3:42

Entiendo.

3:43

El sistema crea unos apuntes rápidos para no

3:46

tener que repasar la enciclopedia entera cada paso.

3:48

Eso es.

3:49

El inconveniente, por lo que veo, es que

3:51

estos apuntes no son texto plano.

3:54

Son matrices matemáticas inmensas.

3:56

Y a medida que el documento crece, esa

3:59

torre de apuntes crece de forma alarmante.

4:02

Crece de forma lineal e inexorable, sí.

4:05

Cada palabra nueva es un bloque adicional en

4:07

la memoria física de la tarjeta gráfica.

4:09

Sí.

4:09

Y cuando esa torre choca contra el techo,

4:11

contra los gigabytes físicos que tiene la tarjeta,

4:14

se acabó.

4:15

El proceso se detiene en seco.

4:16

Ahí es donde duele.

4:18

Y por eso la industria lleva años intentando

4:20

aplicar técnicas de compresión de datos tradicionales.

4:23

Lo que en este campo llamamos cuantización.

4:25

Pero a ver, la idea de comprimir archivos

4:27

lleva existiendo décadas.

4:28

Todos hemos usado archivos ZIP.

4:30

Entiendo que aplicar la cuantización clásica a este

4:33

caché KB resultaba ser un desastre, ¿no?

4:35

Un desastre absoluto.

4:37

Y el motivo técnico por el que fallaba

4:39

tan estrepitosamente tiene nombre y apellidos.

4:42

La existencia de outliers o valores extremos.

4:46

Valores extremos, vale.

4:48

En la documentación del estudio hay una analogía

4:51

visual fantástica para ilustrar este problema geométrico.

4:54

La de la maleta, sí.

4:55

Exacto, el escenario de la maleta.

4:57

Imaginemos que alguien tiene que hacer el equipaje

5:00

para un viaje y dispone de 50 camisetas

5:02

de verano finas, súper ligeras.

5:04

Ajá.

5:05

Y de repente necesita ingresar.

5:07

Y puede incluir un solo abrigo de nieve,

5:09

gigante.

5:09

De esos de expedición polar que abultan una

5:12

barbaridad.

5:12

Pues mira, en esa analogía, las 50 camisetas

5:15

representan la inmensa mayoría de las activaciones matemáticas

5:19

del modelo.

5:20

Números pequeños, estables, fáciles de empaquetar en la

5:23

memoria.

5:23

¿Y el abrigo de nieve?

5:25

El abrigo es el famoso outlier, el valor

5:27

extremo.

5:28

Si los algoritmos tradicionales de compresión intentan meter

5:32

todo este equipaje en una maleta rígida, el

5:35

algoritmo siempre toma la medida del objeto más

5:37

grande.

5:37

Claro.

5:38

Toma el abrigo como referencia para definir el

5:41

tamaño de la maleta.

5:42

Exactamente.

5:43

Como resultado, fabricas una maleta enorme con muchísimo

5:46

espacio vacío y desperdiciado entre las camisetas.

5:49

Ya veo.

5:49

Se adapta todo el sistema de almacenamiento a

5:52

la inspección gigante y se pierde una eficiencia

5:55

brutal por el camino.

5:56

Es el retrato exacto de lo que hace

5:58

la cuantización clásica.

5:59

Toma ese valor extremo y escala todo el

6:01

rango de compresión basándose en ese único número

6:04

gigantesco.

6:04

Y al hacer eso, el rango matemático se

6:07

estima.

6:07

Tira tanto que las camisetas, los valores pequeños,

6:10

pierden su resolución.

6:11

Se difuminan hasta casi desaparecer.

6:14

El sistema de precisión solo tiene ojos para

6:16

la escala del abrigo gigante, por así decirlo.

6:19

Vale, llegados a este punto, la intuición me

6:21

empuja hacia una solución súper obvia.

6:24

Si el abrigo de nieve es lo que

6:26

está arruinando la compresión de todo el sistema,

6:29

¿por qué los algoritmos simplemente no lo ignoran?

6:31

O sea, si es solo una prenda entre

6:33

50, ¿la dejas fuera?

6:35

¿Comprimes las 50 camisetas?

6:37

¿Comprimes las 50 camisetas divinamente y problema resuelto?

6:39

Hoy, esa es la trampa mortal de los

6:41

modelos de lenguaje.

6:42

No se puede.

6:43

¿Por qué no?

6:44

Porque en la arquitectura interna del modelo, esos

6:46

valores gigantescos no son errores matemáticos, no son

6:50

anomalías molestas, son pilares de carga críticos.

6:54

¿Pilares de carga?

6:55

Sí, los investigadores han descubierto que estos outliers

6:57

actúan como sumideros de atención.

7:00

Suelen coincidir con elementos estructurales clave, como signos

7:05

de puntuación, el primer token del texto… O

7:07

sea, no son ruido, son las vigas maestras

7:12

del contexto.

7:13

Totalmente.

7:14

Son el pegamento que mantiene la coherencia del

7:16

modelo.

7:16

Si cortas esos valores grandes, si el algoritmo

7:19

los ignora para comprimir mejor, el modelo pierde

7:22

el hilo lógico por completo.

7:24

Se vuelve tonto.

7:25

Empieza a sufrir alucinaciones, inventa hechos, pierde la

7:29

gramática y da respuestas absurdas.

7:31

No puedes tirar el abrigo sin que el

7:33

modelo se congele de incompetencia, siguiendo con la

7:35

metáfora.

7:36

Vaya tela.

7:37

O sea, un callejón sin salida absoluto.

7:40

No puedes incluir el abrigo sin desperdiciar una

7:43

cantidad ridícula de espacio.

7:45

Pero tampoco puedes dejarlo fuera.

7:47

Eso es.

7:47

Y justo en esta encrucijada es donde la

7:50

investigación de Google saca a relucir una brillantez

7:52

matemática inusual con TurboQuant.

7:54

Logran engañar a la física de la memoria

7:56

con dos pasos fascinantes.

7:58

A ver, cuéntame el primer paso.

8:00

El primero lo han bautizado como preacondicionamiento geométrico.

8:04

En lugar de intentar comprimir los datos crudos…

8:07

…tal cual, con su desorden de camisetas y

8:10

abrigos, aplican una transformación matemática prévida.

8:13

Mmm, vale.

8:14

Utilizan una operación muy específica conocida como la

8:18

transformada de Hadamard.

8:19

La transformada de Hadamard.

8:21

A ver, eso es una física cuántica o

8:23

algo así.

8:24

¿Qué le hace exactamente esta operación a los

8:26

valores extremos?

8:27

Simplificándolo mucho, es una forma de rotar y

8:30

proyectar los datos en un espacio multidimensional.

8:33

Piensa en un prisma de cristal.

8:34

Vale.

8:35

Si un rayo láser intensísimo… …sería nuestro abrigo

8:38

gigante, impacta contra el prisma, este descompone esa

8:41

energía focalizada y la esparce en un arcoíris

8:43

ancho y uniforme.

8:44

Ah, claro.

8:45

La transformada de Hadamard coge la magnitud de

8:48

ese número gigantesco y la distribuye.

8:50

Reparte su peso entre todos los demás valores

8:53

pequeños, de forma perfectamente reversible.

8:55

Aquí es donde se pone realmente interesante.

8:58

O sea, llevándolo de vuelta a la maleta,

9:01

el preacondicionamiento es como meter ese abrigo de

9:04

expedición en una de esas bolsas al vacío.

9:07

Esa es muy buena analogía, sí.

9:09

Le enchufas la aspiradora, le sacas todo el

9:12

aire, hasta que queda del grosor de una

9:14

camiseta.

9:16

La prenda sigue ahí, hemos tirado ropa, pero

9:19

ahora el volumen de todo el equipaje es

9:21

uniforme.

9:21

Brillante.

9:22

Captura la esencia de la reversibilidad matemática a

9:25

la perfección.

9:26

Has distribuido el volumen atípico sin perder la

9:29

masa crítica de la información.

9:31

Ahora todos los datos están nivelados.

9:33

Se ha aplanado la curva de los datos,

9:35

vaya.

9:36

Exacto.

9:36

No hay picos que rompan la escala.

9:39

Y una vez que el terreno está perfectamente

9:41

plano, el sistema entra en el segundo paso

9:44

crítico de TurboQuant, la cuantización de vectores.

9:47

La cuantización de vectores.

9:49

Aquí es donde se realiza la compresión real,

9:51

entiendo.

9:52

Los números en pequeños bloques o vectores.

9:54

Y luego encaja esos grupos en una cuadrícula

9:57

geométrica predefinida súper eficiente.

10:00

Vale, ¿y cuánto comprime esto?

10:02

Pues al operar por grupo sobre esta plantilla,

10:06

dando un promedio de solo 3 bits, en

10:09

contraposición a los 16 bits habituales.

10:12

Espera, espera, espera.

10:13

Yo no te compro esto tan fácilmente.

10:15

Bajar de 16 bits a 3 bits es

10:17

una reducción de datos salvaje.

10:19

Es una barbaridad, sí.

10:20

Es eliminar más del 80 % de la

10:23

información de cada número.

10:25

Por muy bonita que sea la cuadrícula geométrica,

10:27

la matemática dicta que tiene que perderse resolución.

10:30

¿Cómo es posible que no se rompa el

10:32

modelo?

10:32

Es una objeción fantástica.

10:34

Y fíjate, es el corazón de por qué

10:36

este estudio...

10:36

...es tan revolucionario.

10:38

La trampa está en pensar en números aislados

10:41

en lugar de patrones.

10:42

Piensa en una paleta de colores.

10:44

A ver.

10:44

Si quieres transmitir el color exacto de un

10:47

píxel, puedes enviar el código hexadecimal complejo de

10:50

16 bits.

10:51

Eso te da millones de combinaciones de color,

10:54

pero requiere muchos datos.

10:55

Claro, para decir exactamente qué tono específico de

10:58

azul cielo se está usando.

11:00

Exacto.

11:01

Pero, ¿y si antes hemos analizado la imagen

11:04

y creado una paleta fija de solo 8

11:06

colores?

11:06

En lugar de enviar un código gigante, envíes

11:09

una instrucción de 3 bits que dice usa

11:11

el color número 4 de la paleta.

11:13

Ah, ya lo pillo.

11:14

Como en el paso de la bolsa al

11:16

vacío ya habíamos aplanado todos los colores extremos

11:19

y suavizado las transiciones...

11:21

Justo.

11:22

Sabemos que cualquier patrón de datos va a

11:24

coincidir casi perfectamente con uno de esos 8

11:27

colores básicos de la paleta.

11:28

Es fascinante.

11:29

Al distribuir la energía antes, te aseguras de

11:32

no necesitar millones de tonos distintos.

11:34

Una paleta pequeña en memoria...

11:36

Es suficiente para reconstruir la imagen, sin que

11:39

parezca pixelada.

11:40

Y el ahorro de espacio es monumental, sin

11:42

perder la identidad de la información.

11:44

Vale, la teoría suena espectacular, pero un análisis

11:48

no está completo sin ver el impacto en

11:50

el mundo real.

11:51

Cuando alguien se sienta frente a su máquina

11:53

a procesar documentos inmensos, ¿qué cambio tangible aporta

11:57

TurboQuant?

11:58

Pues aporta un salto de capacidad que parece

12:00

romper las reglas del hardware, en cifras concretas

12:03

del estudio.

12:04

Si una máquina local antes podía procesar unas

12:06

10 .000 palabras, antes de colapsar...

12:08

Sí.

12:09

Implementando TurboQuant, ese idéntico equipo, sin modificar un

12:12

solo tornillo, puede procesar 60 .000 palabras.

12:15

¡Madre mía!

12:16

Es pasar de 10 .000 a 60 .000

12:17

en el mismo equipo.

12:18

Es multiplicar por 6 la ventana de contexto

12:20

sin gastar un euro en hardware nuevo.

12:22

Supone la diferencia entre que un modelo apenas

12:25

pueda analizar un informe cortito a que pueda

12:27

ingerir libros enteros de una sola vez.

12:30

Y ojo, que la magia no termina en

12:32

la capacidad.

12:33

Hay más.

12:34

Además, los datos de Google revelan una aceleración

12:36

masiva, en tarjetas gráficas avanzadas, como las H100

12:40

de NVIDIA, se han registrado aceleraciones de hasta

12:43

8 veces en la velocidad.

12:44

Vale.

12:45

Vamos a desgranar esto porque aquí hay una

12:47

aparente contradicción técnica.

12:49

Yo entiendo perfectamente que al usar 3 bits

12:52

en lugar de 16, la memoria se libera

12:55

y ocupa menos espacio.

12:56

Lógico.

12:57

Pero ¿por qué es más rápido?

12:58

Si el ordenador ahora tiene que molestarse en

13:00

descomprimir esos datos matemáticos del prisma y las

13:02

cuadrículas antes de poder usar la información, lo

13:05

normal sería que fuera más rápido.

13:06

Más lento, ¿no?

13:07

Es una duda brillante.

13:09

Y toca el mayor secreto a voces de

13:11

la arquitectura de ordenadores.

13:13

El muro de la memoria.

13:14

El verdadero cuello de botella en una tarjeta

13:16

gráfica casi nunca es la potencia matemática pura.

13:19

Ah, ¿no?

13:20

¡Qué va!

13:20

Los núcleos de procesamiento son insultantemente rápidos.

13:25

El problema logístico real es mover la información

13:27

desde la memoria hasta esos núcleos.

13:30

O sea, es como diseñar una cocina industrial

13:32

con los cocineros más rápidos del planeta, pero

13:35

con un pasillo larguísimo.

13:36

Y súper estrecho para traerles los ingredientes desde

13:39

la despensa.

13:40

Una analogía impecable.

13:42

Ese pasillo estrecho es el ancho de banda

13:45

de la memoria.

13:46

Mover toneladas de información pesada a 16 bits

13:49

por ese pasillo es lo que paraliza el

13:51

sistema.

13:52

Claro, se atascan en la puerta.

13:54

Exacto.

13:55

El modelo se pasa la mayor parte del

13:57

tiempo simplemente esperando a que lleguen los datos.

14:00

Al comprimir a 3 bits, envías paquetes minúsculos

14:03

y ligerísimos por el pasillo.

14:05

Y fluyen a toda velocidad.

14:06

Exacto.

14:06

Y cuando llegan a los núcleos, como esos

14:09

cocineros operan a velocidades astronómicas y encima estaban

14:13

aburridos esperando, descomprimir la información les supone una

14:16

fracción de microsegundo.

14:18

¡Guau!

14:18

O sea, el tiempo extra de cálculo compensa

14:22

con creces el tiempo que te ahorras en

14:24

el transporte.

14:25

Todo encaja a la perfección.

14:27

Pero me queda la prueba de fuego.

14:29

La precisión.

14:30

A ver.

14:31

Porque la experiencia diaria nos dice que si

14:34

comprimes un audio o una imagen, inevitablemente, se

14:37

degrada.

14:37

¿Acaso el modelo no se vuelve más propenso

14:40

a cometer errores lógicos y volverse más torpe?

14:43

Pues prepárate, porque esta es la joya de

14:46

la corona de TurboQuant.

14:47

Hay un 0 % de degradación en la

14:50

precisión.

14:51

¿0 %?

14:52

Me cuesta creerlo.

14:53

Cero.

14:54

Y no lo dicen por decir.

14:56

Se sustenta en evaluaciones exhaustivas con los estándares

14:59

más estrictos como los benchmarks Human Bell y

15:01

GSM8K.

15:03

Ah, vale.

15:04

Esos son bancos de pruebas centrados, en razonamiento

15:07

matemático y generación de código de programación.

15:10

Exactamente.

15:11

Prohíboras donde no existe el casi correcto.

15:13

Si el modelo se equivoca en la indentación

15:16

del código, o se salta un paréntesis, el

15:18

programa falla catastróficamente.

15:20

No hay margen para imprecisiones ahí, claro.

15:23

Ninguno.

15:24

Y los resultados demuestran que los modelos operando

15:26

bajo compresión TurboQuant logran calificaciones idénticas a los

15:30

modelos masivos originales sin comprimir.

15:32

La lógica se mantiene intacta.

15:34

Resulta hipnótico.

15:36

Es como obtener el rendimiento de un Fórmula

15:38

1 gastando el combustible de un utilitario.

15:40

Totalmente.

15:41

No obstante, en cualquier análisis riguroso de tecnología

15:44

nueva, es obligatorio leer la letra pequeña.

15:48

Todo avance revolucionario tiene un pero o requisitos

15:52

muy concretos.

15:53

¿Cuáles son las limitaciones actuales de esto?

15:55

Bueno, la primera grande limitación es su campo

15:58

de aplicación.

16:00

TurboQuant aplica únicamente al caché KV, a esas

16:03

activaciones de memoria temporal que decíamos.

16:06

Ya.

16:06

No es una técnica que se pueda aplicar

16:08

a los pesos principales del modelo, que son

16:10

los archivos base con el conocimiento que la

16:12

IA aprendió durante su entrenamiento.

16:15

Pero, a un nivel profundo, ¿no son todo

16:17

simplemente matrices de números flotantes?

16:20

¿Por qué la técnica de la bolsa al

16:22

vacío funciona para la memoria temporal y no

16:25

para la memoria a largo plazo?

16:27

Porque tienen distribuciones matemáticas muy distintas.

16:30

Piensa en la diferencia entre conocer las reglas

16:32

gramaticales de un idioma y participar en un

16:34

debate acalorado en directo.

16:36

Vale, interesante.

16:38

Los pesos estáticos del modelo son como la

16:40

gramática.

16:41

Reglas fijas, estables, en forma de campana de

16:44

Gauss.

16:44

El caché KV representa la conversación en tiempo

16:47

real.

16:47

Es dinámico, volátil y genera esos picos salvajes,

16:51

los abrigos de nieve.

16:52

Claro, en respuesta a un texto que acaba

16:54

de leer.

16:55

Exacto.

16:56

TurboQuant doma el caos del tiempo real, pero

16:59

no reduce el peso de descarga inicial del

17:01

modelo.

17:01

Un archivo de 40 gigas, seguirá pesando 40

17:04

gigas en tu disco duro.

17:06

Entendido.

17:07

Libera espacio vital durante el proceso de razonamiento.

17:10

Más allá de esta limitación, ¿qué exige esta

17:13

tecnología a nivel de software?

17:15

Porque imagino que no es un botón mágico

17:17

para tarjetas de vídeo antiguas.

17:19

No, qué va.

17:20

Requiere código muy optimizado a nivel de hardware,

17:22

lo que llamamos kernels personalizados.

17:24

Se necesita escribir en lenguajes como Triton para

17:27

manipular la gestión de la memoria de la

17:29

gráfica directamente.

17:30

O sea que, abordando el impacto práctico, si

17:33

alguien nos escucha ahora mismo y quiere probarlo

17:35

esta tarde en su casa, ¿puede o se

17:37

queda atrapado en los servidores de Google?

17:39

Pues, afortunadamente, la adopción de la comunidad open

17:42

source está siendo rapidísima.

17:44

Cualquier desarrollador familiarizado con Python o PyTorch ya

17:47

puede ir a GitHub.

17:48

Ya hay repositorios.

17:50

Sí, sí.

17:51

Pueden clonar implementaciones experimentales de TurboQuant para ensuciarse

17:55

las manos con el código desde ya.

17:57

Y para la inmensa mayoría de usuarios técnicos

18:00

que usamos herramientas más consolidadas para ejecutar IA

18:04

local sin programar a bajo nivel.

18:06

Para ellos, el horizonte se mide en semanas

18:07

o meses.

18:08

Proyectos inmensos como Lama CPP, que es el

18:11

estándar para ejecutar modelos locales, o el framework

18:14

MLX de Apple, están trabajando a contrarreloj para

18:17

integrarlo.

18:18

Fíjate, en la arquitectura de memoria unificada de

18:21

Apple, donde la RAM y la VRAM son

18:23

la misma cosa, aliviar el ancho de banda

18:25

con esto tiene que ser crítico.

18:27

Absolutamente crítico, sí.

18:29

El abismo entre la investigación académica y la

18:31

herramienta de usuario final se está cerrando a

18:34

un ritmo de vértigo.

18:35

Qué maravilla.

18:35

Pues bueno, recopilando todas las piezas.

18:39

Hemos analizado cómo el caché KB devoraba la

18:43

memoria local y cómo los valores extremos destrozaban

18:46

la compresión tradicional.

18:48

Así es.

18:48

Y hemos descubierto cómo la matemática de Google,

18:52

con la transformada de Hadamard y esa cuadrícula

18:55

de 3 bits, logra liberar espacio y velocidad

18:58

sin perder ni un ápice de capacidad lógica.

19:01

Es increíble.

19:02

Y fíjate, antes de terminar, me gustaría dejar

19:04

una reflexión sobre esto.

19:06

Si hemos logrado multiplicar por 6 la capacidad

19:09

de contexto en máquinas locales, simplemente reordenando las

19:12

matemáticas, cabe preguntarse, ¿qué otros límites de la

19:16

inteligencia artificial actual no son barreras físicas reales

19:20

del hardware, sino simples ineficiencias matemáticas esperando a

19:24

ser resueltas por el próximo algoritmo brillante?

19:26

Ostras, pues es un pensamiento profundo.

19:28

Y provocador brutal.

19:29

Quizá no necesitamos siempre chips más gigantescos, sino

19:34

pensar de manera más elegante.

19:36

Yo estoy convencido de ello.

19:37

Pues una reflexión extraordinaria para cerrar.

19:41

Antes de despedirnos hasta el próximo programa, os

19:43

informamos de que las voces que oyes han

19:45

sido generadas por la IA de Notebook LM

19:47

y que dirigiendo el podcast se encuentra Julio

19:51

Pablo Vázquez, un humano que te envía saludos.

19:53

En caso de error, probablemente sean errores humanos.

19:56

¡Nos escuchamos!

19:58

Y hasta aquí el episodio de hoy.

20:10

Muchas gracias por tu atención.

20:22

Esto es BIMpraxis.

20:24

Nos escuchamos en el próximo episodio.