E073_TurboQuant_Comprimir_la_KV-Cache_de

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:41

de BIMPRAXIS.

0:42

Hoy os traemos TurboQuant, la técnica de Google

0:45

que hace viable correr modelos de lenguaje gigantes

0:48

en cualquier ordenador.

0:50

Bueno, imaginemos por un momento intentar meter el

0:53

océano Atlántico entero en una piscina olímpica.

0:56

Madre mía.

0:56

Y encina sin derramar ni una sola gota.

0:58

Pues esa es exactamente la clase de paradoja

1:01

física y matemática que ocurre dentro de un

1:03

ordenador cuando un modelo de inteligencia artificial se

1:06

queda sin memoria.

1:07

Es un problema monumental.

1:09

O sea, cualquiera que haya intentado experimentar con

1:11

IA.

1:12

De forma local, en su propia máquina, se

1:14

ha chocado contra este mismo muro.

1:16

Exacto, el muro del ladrillo de la memoria

1:18

de vídeo, la VRAM.

1:20

Te pones a procesar un texto largo, el

1:22

modelo empieza a leer, parece que todo va

1:24

fluido y de repente ¡pum!

1:26

La pantalla te arroja el temido error de

1:28

falta de memoria.

1:29

El cerebro del sistema simplemente colapsa.

1:32

Intenta retener demasiada información al mismo tiempo y

1:35

no da más de sí.

1:36

Y claro, es una frustración enorme.

1:39

Una barrera que frena muchísima innovación.

1:42

A nivel local.

1:43

Por eso, la misión de nuestra inmersión profunda

1:45

de hoy es comprender cómo el equipo de

1:48

Google Research ha logrado algo que parecía magia.

1:51

O directamente imposible desde el punto de vista

1:53

matemático, fíjate.

1:54

Totalmente.

1:55

Han publicado un estudio donde presentan TurboQuant, que

1:58

es una técnica que resuelve este gigantesco cuello

2:01

de botella.

2:01

Estamos hablando de comprimir el espacio necesario hasta

2:04

seis veces.

2:05

¿Una barbaridad?

2:06

Y acelerar el proceso general.

2:08

Pero lo más alucinante, y ojo a esto,

2:10

es no perder...

2:12

Absolutamente nada de precisión por el camino.

2:14

Esto cambia por completo las reglas del juego.

2:17

Sí, sí, es una pasada para la comunidad.

2:19

Pero, bueno, a ver, para entender la magnitud

2:22

de esta solución técnica, primero hay que mirar

2:25

al problema a los ojos.

2:26

No se puede valorar la genialidad de la

2:28

cura si no se comprende la enfermedad, por

2:31

así decirlo.

2:32

Lógico.

2:32

Y en la arquitectura de los modelos modernos,

2:35

el gran culpable de que los sistemas agoten

2:37

su memoria casi siempre es el mismo componente.

2:40

El famoso caché -caché.

2:42

El caché -cabe, o caché de claves y

2:43

valores.

2:44

Vale, el caché -cabe.

2:45

Quizá convenga detenernos aquí un momentito, porque esto

2:48

suena a jerga de ingeniería muy densa.

2:51

Ya, es verdad.

2:52

Pero en el fondo representa la lógica más

2:54

básica de cómo lee una inteligencia artificial.

2:57

¿Cómo le visualizaríamos esto a alguien ajeno a

3:00

la programación de bajo nivel?

3:01

Pues, a ver, es un mecanismo de supervivencia

3:04

computacional básico.

3:05

Si alguien está leyendo una novela de mil

3:07

páginas y llega al capítulo 10, no necesita

3:10

volver a leer desde la primera página para

3:13

saber quién es el protagonista, ¿verdad?

3:15

Claro.

3:16

El cerebro humano guarda un contexto activo.

3:19

Justo.

3:20

Los modelos de lenguaje necesitan hacer exactamente lo

3:23

mismo.

3:23

El caché -cabe es ese espacio de memoria

3:26

donde el modelo va anotando sus interpretaciones matemáticas

3:29

de las palabras anteriores, los tokens.

3:31

O sea, si el sistema tuviera que recalcular

3:33

toda la lógica desde cero absoluto para cada

3:35

palabra… Tardaría siglos.

3:37

Imagínate repasar todo el documento solo para verlo.

3:41

Sería inasumible.

3:42

Entiendo.

3:43

El sistema crea unos apuntes rápidos para no

3:46

tener que repasar la enciclopedia entera cada paso.

3:48

Eso es.

3:49

El inconveniente, por lo que veo, es que

3:51

estos apuntes no son texto plano.

3:54

Son matrices matemáticas inmensas.

3:56

Y a medida que el documento crece, esa

3:59

torre de apuntes crece de forma alarmante.

4:02

Crece de forma lineal e inexorable, sí.

4:05

Cada palabra nueva es un bloque adicional en

4:07

la memoria física de la tarjeta gráfica.

4:09

Sí.

4:09

Y cuando esa torre choca contra el techo,

4:11

contra los gigabytes físicos que tiene la tarjeta,

4:14

se acabó.

4:15

El proceso se detiene en seco.

4:16

Ahí es donde duele.

4:18

Y por eso la industria lleva años intentando

4:20

aplicar técnicas de compresión de datos tradicionales.

4:23

Lo que en este campo llamamos cuantización.

4:25

Pero a ver, la idea de comprimir archivos

4:27

lleva existiendo décadas.

4:28

Todos hemos usado archivos ZIP.

4:30

Entiendo que aplicar la cuantización clásica a este

4:33

caché KB resultaba ser un desastre, ¿no?

4:35

Un desastre absoluto.

4:37

Y el motivo técnico por el que fallaba

4:39

tan estrepitosamente tiene nombre y apellidos.

4:42

La existencia de outliers o valores extremos.

4:46

Valores extremos, vale.

4:48

En la documentación del estudio hay una analogía

4:51

visual fantástica para ilustrar este problema geométrico.

4:54

La de la maleta, sí.

4:55

Exacto, el escenario de la maleta.

4:57

Imaginemos que alguien tiene que hacer el equipaje

5:00

para un viaje y dispone de 50 camisetas

5:02

de verano finas, súper ligeras.

5:04

Ajá.

5:05

Y de repente necesita ingresar.

5:07

Y puede incluir un solo abrigo de nieve,

5:09

gigante.

5:09

De esos de expedición polar que abultan una

5:12

barbaridad.

5:12

Pues mira, en esa analogía, las 50 camisetas

5:15

representan la inmensa mayoría de las activaciones matemáticas

5:19

del modelo.

5:20

Números pequeños, estables, fáciles de empaquetar en la

5:23

memoria.

5:23

¿Y el abrigo de nieve?

5:25

El abrigo es el famoso outlier, el valor

5:27

extremo.

5:28

Si los algoritmos tradicionales de compresión intentan meter

5:32

todo este equipaje en una maleta rígida, el

5:35

algoritmo siempre toma la medida del objeto más

5:37

grande.

5:37

Claro.

5:38

Toma el abrigo como referencia para definir el

5:41

tamaño de la maleta.

5:42

Exactamente.

5:43

Como resultado, fabricas una maleta enorme con muchísimo

5:46

espacio vacío y desperdiciado entre las camisetas.

5:49

Ya veo.

5:49

Se adapta todo el sistema de almacenamiento a

5:52

la inspección gigante y se pierde una eficiencia

5:55

brutal por el camino.

5:56

Es el retrato exacto de lo que hace

5:58

la cuantización clásica.

5:59

Toma ese valor extremo y escala todo el

6:01

rango de compresión basándose en ese único número

6:04

gigantesco.

6:04

Y al hacer eso, el rango matemático se

6:07

estima.

6:07

Tira tanto que las camisetas, los valores pequeños,

6:10

pierden su resolución.

6:11

Se difuminan hasta casi desaparecer.

6:14

El sistema de precisión solo tiene ojos para

6:16

la escala del abrigo gigante, por así decirlo.

6:19

Vale, llegados a este punto, la intuición me

6:21

empuja hacia una solución súper obvia.

6:24

Si el abrigo de nieve es lo que

6:26

está arruinando la compresión de todo el sistema,

6:29

¿por qué los algoritmos simplemente no lo ignoran?

6:31

O sea, si es solo una prenda entre

6:33

50, ¿la dejas fuera?

6:35

¿Comprimes las 50 camisetas?

6:37

¿Comprimes las 50 camisetas divinamente y problema resuelto?

6:39

Hoy, esa es la trampa mortal de los

6:41

modelos de lenguaje.

6:42

No se puede.

6:43

¿Por qué no?

6:44

Porque en la arquitectura interna del modelo, esos

6:46

valores gigantescos no son errores matemáticos, no son

6:50

anomalías molestas, son pilares de carga críticos.

6:54

¿Pilares de carga?

6:55

Sí, los investigadores han descubierto que estos outliers

6:57

actúan como sumideros de atención.

7:00

Suelen coincidir con elementos estructurales clave, como signos

7:05

de puntuación, el primer token del texto… O

7:07

sea, no son ruido, son las vigas maestras

7:12

del contexto.

7:13

Totalmente.

7:14

Son el pegamento que mantiene la coherencia del

7:16

modelo.

7:16

Si cortas esos valores grandes, si el algoritmo

7:19

los ignora para comprimir mejor, el modelo pierde

7:22

el hilo lógico por completo.

7:24

Se vuelve tonto.

7:25

Empieza a sufrir alucinaciones, inventa hechos, pierde la

7:29

gramática y da respuestas absurdas.

7:31

No puedes tirar el abrigo sin que el

7:33

modelo se congele de incompetencia, siguiendo con la

7:35

metáfora.

7:36

Vaya tela.

7:37

O sea, un callejón sin salida absoluto.

7:40

No puedes incluir el abrigo sin desperdiciar una

7:43

cantidad ridícula de espacio.

7:45

Pero tampoco puedes dejarlo fuera.

7:47

Eso es.

7:47

Y justo en esta encrucijada es donde la

7:50

investigación de Google saca a relucir una brillantez

7:52

matemática inusual con TurboQuant.

7:54

Logran engañar a la física de la memoria

7:56

con dos pasos fascinantes.

7:58

A ver, cuéntame el primer paso.

8:00

El primero lo han bautizado como preacondicionamiento geométrico.

8:04

En lugar de intentar comprimir los datos crudos…

8:07

…tal cual, con su desorden de camisetas y

8:10

abrigos, aplican una transformación matemática prévida.

8:13

Mmm, vale.

8:14

Utilizan una operación muy específica conocida como la

8:18

transformada de Hadamard.

8:19

La transformada de Hadamard.

8:21

A ver, eso es una física cuántica o

8:23

algo así.

8:24

¿Qué le hace exactamente esta operación a los

8:26

valores extremos?

8:27

Simplificándolo mucho, es una forma de rotar y

8:30

proyectar los datos en un espacio multidimensional.

8:33

Piensa en un prisma de cristal.

8:34

Vale.

8:35

Si un rayo láser intensísimo… …sería nuestro abrigo

8:38

gigante, impacta contra el prisma, este descompone esa

8:41

energía focalizada y la esparce en un arcoíris

8:43

ancho y uniforme.

8:44

Ah, claro.

8:45

La transformada de Hadamard coge la magnitud de

8:48

ese número gigantesco y la distribuye.

8:50

Reparte su peso entre todos los demás valores

8:53

pequeños, de forma perfectamente reversible.

8:55

Aquí es donde se pone realmente interesante.

8:58

O sea, llevándolo de vuelta a la maleta,

9:01

el preacondicionamiento es como meter ese abrigo de

9:04

expedición en una de esas bolsas al vacío.

9:07

Esa es muy buena analogía, sí.

9:09

Le enchufas la aspiradora, le sacas todo el

9:12

aire, hasta que queda del grosor de una

9:14

camiseta.

9:16

La prenda sigue ahí, hemos tirado ropa, pero

9:19

ahora el volumen de todo el equipaje es

9:21

uniforme.

9:21

Brillante.

9:22

Captura la esencia de la reversibilidad matemática a

9:25

la perfección.

9:26

Has distribuido el volumen atípico sin perder la

9:29

masa crítica de la información.

9:31

Ahora todos los datos están nivelados.

9:33

Se ha aplanado la curva de los datos,

9:35

vaya.

9:36

Exacto.

9:36

No hay picos que rompan la escala.

9:39

Y una vez que el terreno está perfectamente

9:41

plano, el sistema entra en el segundo paso

9:44

crítico de TurboQuant, la cuantización de vectores.

9:47

La cuantización de vectores.

9:49

Aquí es donde se realiza la compresión real,

9:51

entiendo.

9:52

Los números en pequeños bloques o vectores.

9:54

Y luego encaja esos grupos en una cuadrícula

9:57

geométrica predefinida súper eficiente.

10:00

Vale, ¿y cuánto comprime esto?

10:02

Pues al operar por grupo sobre esta plantilla,

10:06

dando un promedio de solo 3 bits, en

10:09

contraposición a los 16 bits habituales.

10:12

Espera, espera, espera.

10:13

Yo no te compro esto tan fácilmente.

10:15

Bajar de 16 bits a 3 bits es

10:17

una reducción de datos salvaje.

10:19

Es una barbaridad, sí.

10:20

Es eliminar más del 80 % de la

10:23

información de cada número.

10:25

Por muy bonita que sea la cuadrícula geométrica,

10:27

la matemática dicta que tiene que perderse resolución.

10:30

¿Cómo es posible que no se rompa el

10:32

modelo?

10:32

Es una objeción fantástica.

10:34

Y fíjate, es el corazón de por qué

10:36

este estudio...

10:36

...es tan revolucionario.

10:38

La trampa está en pensar en números aislados

10:41

en lugar de patrones.

10:42

Piensa en una paleta de colores.

10:44

A ver.

10:44

Si quieres transmitir el color exacto de un

10:47

píxel, puedes enviar el código hexadecimal complejo de

10:50

16 bits.

10:51

Eso te da millones de combinaciones de color,

10:54

pero requiere muchos datos.

10:55

Claro, para decir exactamente qué tono específico de

10:58

azul cielo se está usando.

11:00

Exacto.

11:01

Pero, ¿y si antes hemos analizado la imagen

11:04

y creado una paleta fija de solo 8

11:06

colores?

11:06

En lugar de enviar un código gigante, envíes

11:09

una instrucción de 3 bits que dice usa

11:11

el color número 4 de la paleta.

11:13

Ah, ya lo pillo.

11:14

Como en el paso de la bolsa al

11:16

vacío ya habíamos aplanado todos los colores extremos

11:19

y suavizado las transiciones...

11:21

Justo.

11:22

Sabemos que cualquier patrón de datos va a

11:24

coincidir casi perfectamente con uno de esos 8

11:27

colores básicos de la paleta.

11:28

Es fascinante.

11:29

Al distribuir la energía antes, te aseguras de

11:32

no necesitar millones de tonos distintos.

11:34

Una paleta pequeña en memoria...

11:36

Es suficiente para reconstruir la imagen, sin que

11:39

parezca pixelada.

11:40

Y el ahorro de espacio es monumental, sin

11:42

perder la identidad de la información.

11:44

Vale, la teoría suena espectacular, pero un análisis

11:48

no está completo sin ver el impacto en

11:50

el mundo real.

11:51

Cuando alguien se sienta frente a su máquina

11:53

a procesar documentos inmensos, ¿qué cambio tangible aporta

11:57

TurboQuant?

11:58

Pues aporta un salto de capacidad que parece

12:00

romper las reglas del hardware, en cifras concretas

12:03

del estudio.

12:04

Si una máquina local antes podía procesar unas

12:06

10 .000 palabras, antes de colapsar...

12:08

Sí.

12:09

Implementando TurboQuant, ese idéntico equipo, sin modificar un

12:12

solo tornillo, puede procesar 60 .000 palabras.

12:15

¡Madre mía!

12:16

Es pasar de 10 .000 a 60 .000

12:17

en el mismo equipo.

12:18

Es multiplicar por 6 la ventana de contexto

12:20

sin gastar un euro en hardware nuevo.

12:22

Supone la diferencia entre que un modelo apenas

12:25

pueda analizar un informe cortito a que pueda

12:27

ingerir libros enteros de una sola vez.

12:30

Y ojo, que la magia no termina en

12:32

la capacidad.

12:33

Hay más.

12:34

Además, los datos de Google revelan una aceleración

12:36

masiva, en tarjetas gráficas avanzadas, como las H100

12:40

de NVIDIA, se han registrado aceleraciones de hasta

12:43

8 veces en la velocidad.

12:44

Vale.

12:45

Vamos a desgranar esto porque aquí hay una

12:47

aparente contradicción técnica.

12:49

Yo entiendo perfectamente que al usar 3 bits

12:52

en lugar de 16, la memoria se libera

12:55

y ocupa menos espacio.

12:56

Lógico.

12:57

Pero ¿por qué es más rápido?

12:58

Si el ordenador ahora tiene que molestarse en

13:00

descomprimir esos datos matemáticos del prisma y las

13:02

cuadrículas antes de poder usar la información, lo

13:05

normal sería que fuera más rápido.

13:06

Más lento, ¿no?

13:07

Es una duda brillante.

13:09

Y toca el mayor secreto a voces de

13:11

la arquitectura de ordenadores.

13:13

El muro de la memoria.

13:14

El verdadero cuello de botella en una tarjeta

13:16

gráfica casi nunca es la potencia matemática pura.

13:19

Ah, ¿no?

13:20

¡Qué va!

13:20

Los núcleos de procesamiento son insultantemente rápidos.

13:25

El problema logístico real es mover la información

13:27

desde la memoria hasta esos núcleos.

13:30

O sea, es como diseñar una cocina industrial

13:32

con los cocineros más rápidos del planeta, pero

13:35

con un pasillo larguísimo.

13:36

Y súper estrecho para traerles los ingredientes desde

13:39

la despensa.

13:40

Una analogía impecable.

13:42

Ese pasillo estrecho es el ancho de banda

13:45

de la memoria.

13:46

Mover toneladas de información pesada a 16 bits

13:49

por ese pasillo es lo que paraliza el

13:51

sistema.

13:52

Claro, se atascan en la puerta.

13:54

Exacto.

13:55

El modelo se pasa la mayor parte del

13:57

tiempo simplemente esperando a que lleguen los datos.

14:00

Al comprimir a 3 bits, envías paquetes minúsculos

14:03

y ligerísimos por el pasillo.

14:05

Y fluyen a toda velocidad.

14:06

Exacto.

14:06

Y cuando llegan a los núcleos, como esos

14:09

cocineros operan a velocidades astronómicas y encima estaban

14:13

aburridos esperando, descomprimir la información les supone una

14:16

fracción de microsegundo.

14:18

¡Guau!

14:18

O sea, el tiempo extra de cálculo compensa

14:22

con creces el tiempo que te ahorras en

14:24

el transporte.

14:25

Todo encaja a la perfección.

14:27

Pero me queda la prueba de fuego.

14:29

La precisión.

14:30

A ver.

14:31

Porque la experiencia diaria nos dice que si

14:34

comprimes un audio o una imagen, inevitablemente, se

14:37

degrada.

14:37

¿Acaso el modelo no se vuelve más propenso

14:40

a cometer errores lógicos y volverse más torpe?

14:43

Pues prepárate, porque esta es la joya de

14:46

la corona de TurboQuant.

14:47

Hay un 0 % de degradación en la

14:50

precisión.

14:51

¿0 %?

14:52

Me cuesta creerlo.

14:53

Cero.

14:54

Y no lo dicen por decir.

14:56

Se sustenta en evaluaciones exhaustivas con los estándares

14:59

más estrictos como los benchmarks Human Bell y

15:01

GSM8K.

15:03

Ah, vale.

15:04

Esos son bancos de pruebas centrados, en razonamiento

15:07

matemático y generación de código de programación.

15:10

Exactamente.

15:11

Prohíboras donde no existe el casi correcto.

15:13

Si el modelo se equivoca en la indentación

15:16

del código, o se salta un paréntesis, el

15:18

programa falla catastróficamente.

15:20

No hay margen para imprecisiones ahí, claro.

15:23

Ninguno.

15:24

Y los resultados demuestran que los modelos operando

15:26

bajo compresión TurboQuant logran calificaciones idénticas a los

15:30

modelos masivos originales sin comprimir.

15:32

La lógica se mantiene intacta.

15:34

Resulta hipnótico.

15:36

Es como obtener el rendimiento de un Fórmula

15:38

1 gastando el combustible de un utilitario.

15:40

Totalmente.

15:41

No obstante, en cualquier análisis riguroso de tecnología

15:44

nueva, es obligatorio leer la letra pequeña.

15:48

Todo avance revolucionario tiene un pero o requisitos

15:52

muy concretos.

15:53

¿Cuáles son las limitaciones actuales de esto?

15:55

Bueno, la primera grande limitación es su campo

15:58

de aplicación.

16:00

TurboQuant aplica únicamente al caché KV, a esas

16:03

activaciones de memoria temporal que decíamos.

16:06

Ya.

16:06

No es una técnica que se pueda aplicar

16:08

a los pesos principales del modelo, que son

16:10

los archivos base con el conocimiento que la

16:12

IA aprendió durante su entrenamiento.

16:15

Pero, a un nivel profundo, ¿no son todo

16:17

simplemente matrices de números flotantes?

16:20

¿Por qué la técnica de la bolsa al

16:22

vacío funciona para la memoria temporal y no

16:25

para la memoria a largo plazo?

16:27

Porque tienen distribuciones matemáticas muy distintas.

16:30

Piensa en la diferencia entre conocer las reglas

16:32

gramaticales de un idioma y participar en un

16:34

debate acalorado en directo.

16:36

Vale, interesante.

16:38

Los pesos estáticos del modelo son como la

16:40

gramática.

16:41

Reglas fijas, estables, en forma de campana de

16:44

Gauss.

16:44

El caché KV representa la conversación en tiempo

16:47

real.

16:47

Es dinámico, volátil y genera esos picos salvajes,

16:51

los abrigos de nieve.

16:52

Claro, en respuesta a un texto que acaba

16:54

de leer.

16:55

Exacto.

16:56

TurboQuant doma el caos del tiempo real, pero

16:59

no reduce el peso de descarga inicial del

17:01

modelo.

17:01

Un archivo de 40 gigas, seguirá pesando 40

17:04

gigas en tu disco duro.

17:06

Entendido.

17:07

Libera espacio vital durante el proceso de razonamiento.

17:10

Más allá de esta limitación, ¿qué exige esta

17:13

tecnología a nivel de software?

17:15

Porque imagino que no es un botón mágico

17:17

para tarjetas de vídeo antiguas.

17:19

No, qué va.

17:20

Requiere código muy optimizado a nivel de hardware,

17:22

lo que llamamos kernels personalizados.

17:24

Se necesita escribir en lenguajes como Triton para

17:27

manipular la gestión de la memoria de la

17:29

gráfica directamente.

17:30

O sea que, abordando el impacto práctico, si

17:33

alguien nos escucha ahora mismo y quiere probarlo

17:35

esta tarde en su casa, ¿puede o se

17:37

queda atrapado en los servidores de Google?

17:39

Pues, afortunadamente, la adopción de la comunidad open

17:42

source está siendo rapidísima.

17:44

Cualquier desarrollador familiarizado con Python o PyTorch ya

17:47

puede ir a GitHub.

17:48

Ya hay repositorios.

17:50

Sí, sí.

17:51

Pueden clonar implementaciones experimentales de TurboQuant para ensuciarse

17:55

las manos con el código desde ya.

17:57

Y para la inmensa mayoría de usuarios técnicos

18:00

que usamos herramientas más consolidadas para ejecutar IA

18:04

local sin programar a bajo nivel.

18:06

Para ellos, el horizonte se mide en semanas

18:07

o meses.

18:08

Proyectos inmensos como Lama CPP, que es el

18:11

estándar para ejecutar modelos locales, o el framework

18:14

MLX de Apple, están trabajando a contrarreloj para

18:17

integrarlo.

18:18

Fíjate, en la arquitectura de memoria unificada de

18:21

Apple, donde la RAM y la VRAM son

18:23

la misma cosa, aliviar el ancho de banda

18:25

con esto tiene que ser crítico.

18:27

Absolutamente crítico, sí.

18:29

El abismo entre la investigación académica y la

18:31

herramienta de usuario final se está cerrando a

18:34

un ritmo de vértigo.

18:35

Qué maravilla.

18:35

Pues bueno, recopilando todas las piezas.

18:39

Hemos analizado cómo el caché KB devoraba la

18:43

memoria local y cómo los valores extremos destrozaban

18:46

la compresión tradicional.

18:48

Así es.

18:48

Y hemos descubierto cómo la matemática de Google,

18:52

con la transformada de Hadamard y esa cuadrícula

18:55

de 3 bits, logra liberar espacio y velocidad

18:58

sin perder ni un ápice de capacidad lógica.

19:01

Es increíble.

19:02

Y fíjate, antes de terminar, me gustaría dejar

19:04

una reflexión sobre esto.

19:06

Si hemos logrado multiplicar por 6 la capacidad

19:09

de contexto en máquinas locales, simplemente reordenando las

19:12

matemáticas, cabe preguntarse, ¿qué otros límites de la

19:16

inteligencia artificial actual no son barreras físicas reales

19:20

del hardware, sino simples ineficiencias matemáticas esperando a

19:24

ser resueltas por el próximo algoritmo brillante?

19:26

Ostras, pues es un pensamiento profundo.

19:28

Y provocador brutal.

19:29

Quizá no necesitamos siempre chips más gigantescos, sino

19:34

pensar de manera más elegante.

19:36

Yo estoy convencido de ello.

19:37

Pues una reflexión extraordinaria para cerrar.

19:41

Antes de despedirnos hasta el próximo programa, os

19:43

informamos de que las voces que oyes han

19:45

sido generadas por la IA de Notebook LM

19:47

y que dirigiendo el podcast se encuentra Julio

19:51

Pablo Vázquez, un humano que te envía saludos.

19:53

En caso de error, probablemente sean errores humanos.

19:56

¡Nos escuchamos!

19:58

Y hasta aquí el episodio de hoy.

20:10

Muchas gracias por tu atención.

20:22

Esto es BIMpraxis.

20:24

Nos escuchamos en el próximo episodio.

E073_TurboQuant_Comprimir_la_KV-Cache_de_contexto

Episode description

Episodio de BIMPRAXIS: TurboQuant, la técnica de Google para correr modelos de lenguaje gigantes en cualquier ordenador

Persons