E069_Caché_semántica_y_de_prompts_en_IA
Ep. 69

E069_Caché_semántica_y_de_prompts_en_IA

Episode description

Descripción del Episodio

En este episodio de BIMPRAXIS, exploramos cómo las memorias caché están revolucionando la forma en que los modelos de lenguaje generativo masivo funcionan, ahorrando tiempo y dinero. Analizamos dos enfoques clave: la caché semántica para respuestas finales y el almacenamiento en caché del procesamiento de entrada, o prompts. Examinamos cómo GPT-Caché y la documentación de IBM Technology ofrecen soluciones innovadoras para optimizar el rendimiento y reducir costos. Además, discutimos la importancia de la calibración y la monitorización en la implementación de estas tecnologías.

Download transcript (.srt)
0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:42

Hoy os traemos, acelerando la IA, cómo las

0:45

memorias caché están salvando tiempo y dinero en

0:48

la era de los modelos de lenguaje.

0:50

Hola, ¿qué tal?

0:50

Un tema absolutamente vital hoy en día, la

0:53

verdad.

0:54

Totalmente.

0:55

A ver, para ponernos en situación, imaginemos un

0:57

escenario que, bueno, se ha vuelto peligrosamente común,

1:01

diría yo, en la industria tecnológica actual.

1:03

Uf, me lo veo venir.

1:04

Sí, sí.

1:05

Fíjate, un equipo de ingeniería lanzó una aplicación,

1:08

¿vale?

1:09

Respaldada por un modelo de lenguaje generativo masivo.

1:12

La herramienta resuelve una necesidad real, a la

1:15

gente le encanta, la adopción de usuarios se

1:17

dispara, la curva de crecimiento se vuelve vertical

1:20

y...

1:20

Y de repente llega el susto de fin

1:23

de mes.

1:23

Exacto.

1:24

Llega la primera factura de la infraestructura en

1:26

la nube y son, no sé, 50.000 euros.

1:29

Así, de golpe.

1:30

Madre mía, 50.000 euros que duelen físicamente.

1:33

Duelen, duelen mucho.

1:35

Y lo más sangrante del asunto, lo que

1:37

de verdad duele a nivel de ingeniería, es

1:40

que gran parte de ese presupuesto astronómico se

1:42

ha esfumado en generar respuestas que el modelo,

1:45

en la práctica, ya había procesado y calculado

1:49

horas antes para otros usuarios.

1:51

Claro, es que es la paradoja definitiva del

1:53

desarrollo actual.

1:54

O sea, el éxito masivo puede quebrar literalmente

1:57

un proyecto por culpa de una arquitectura ineficiente.

2:00

Es que morir de éxito nunca ha sido

2:01

tan literal, ¿no?

2:03

Totalmente.

2:04

Porque, a ver, el consumo de las APIs

2:06

de inteligencia artificial no funciona como el tráfico

2:08

web tradicional.

2:10

Aquí, la latencia y el coste financiero escalan

2:13

de forma lineal y vamos despiadada con cada

2:16

token generado.

2:17

Cada palabra es dinero.

2:18

Eso es.

2:19

Y frente a esta amenaza, pues la ingeniería

2:21

de software se ha visto obligada a implementar

2:23

unas capas de optimización muy, muy sofisticadas.

2:27

Que es justo nuestra misión de hoy.

2:29

Vamos a diseccionar a nivel técnico las dos

2:33

trincheras principales de esta batalla, ¿verdad?

2:36

Exacto.

2:37

Por un lado, tenemos la caché semántica para

2:39

las respuestas finales, que la vamos a ver

2:41

a través de un proyecto de código abierto

2:43

buenísimo llamado GPT-Caché.

2:45

Mmm, interesantísimo.

2:48

Y por otro lado, el almacenamiento en caché

2:50

pero del procesamiento de entrada, o sea, los

2:53

prompts, basándonos en un análisis técnico muy revelador

2:56

de IBM Technology.

2:58

Vale, pues vamos a empezar por lo básico,

3:00

porque el instinto más fundamental de la informática

3:03

para evitar recalcular cosas siempre ha sido la

3:06

memoria caché.

3:07

¿De toda la vida vamos?

3:08

Claro.

3:09

Si una base de datos ya ha devuelto

3:11

un resultado complejo, pues ese resultado se almacena

3:14

temporalmente y listo.

3:16

Pero el problema de aplicar esta lógica, así,

3:18

tan binaria, a los modelos de lenguaje es

3:20

que la caché tradicional opera bajo un régimen

3:23

de coincidencia léxica absoluta.

3:25

O sea, que tiene que ser exactamente la

3:28

misma letra, el mismo espacio, todo.

3:30

Eso es.

3:31

Yo lo veo como el funcionamiento de un

3:33

restaurante con un protocolo, digamos, extremadamente rígido.

3:37

A ver esa analogía.

3:38

Fíjate, si la primera comanda exige una hamburguesa

3:41

con queso, pues la cocina prepara el plato,

3:44

¿vale?

3:44

Vale.

3:45

Pero si el siguiente cliente entra y solicita

3:47

una hamburguesa que lleve queso, un sistema tradicional,

3:51

una caché clásica, descartaría el trabajo previo por

3:54

completo.

3:55

Claro, porque la cadena de texto no es

3:56

idéntica.

3:57

Exactamente.

3:58

Obligaría a la cocina a empezar el proceso

4:00

de elaboración desde cero, simplemente porque la cadena

4:04

de caracteres no coincide matemáticamente, aunque el cliente

4:07

quiera lo mismo.

4:08

Es que esa variabilidad infinita de la expresión

4:11

humana es lo que destroza por completo el

4:13

índice de aciertos, lo que llamamos el hit

4:16

ratio de las arquitecturas de caché clásicas.

4:19

O sea, un clúster de Redis normal y

4:20

corriente ahí no nos sirve de mucho.

4:22

No, porque evalúa hashes de texto plano.

4:26

Te dice, no es igual y ya está.

4:28

Y para solucionar esta ineficiencia tan crítica, aquí

4:31

es donde entra GPT Caché e introduce una

4:34

capa de evaluación algorítmica previa a la búsqueda.

4:37

Vale, o sea, ¿se pone en medio?

4:38

Exacto.

4:39

Intercepta la consulta.

4:40

En lugar de comparar letras, el sistema coge

4:42

la consulta del usuario y la procesa a

4:44

través de un modelo de embedding ligero.

4:46

Vale, la convierte en vectores.

4:49

Eso es.

4:50

Este modelo transforma la frase en un vector

4:52

denso.

4:53

Digamos, una matriz de números flotantes que representa

4:56

las coordenadas semánticas de esa frase en un

4:58

espacio multidimensional.

5:00

Suena a ciencia ficción, pero básicamente es que

5:02

el sistema deja de buscar palabras exactas y

5:05

empieza a calcular distancias matemáticas, ¿no?

5:08

El significado de fondo.

5:09

Totalmente.

5:10

Entiende el significado.

5:12

Si dos frases apuntan al mismo sitio en

5:14

ese espacio multidimensional, es que significan lo mismo.

5:17

Ya, claro.

5:18

Pero a ver, la conversión a vectores altera

5:21

las reglas del juego, sí.

5:22

Pero calcular esas distancias matemáticas entre cientos de

5:26

miles de registros en tiempo real, a mí

5:29

me suscita dudas sobre el rendimiento.

5:31

Es una duda superlógica.

5:33

Claro, porque si el objetivo primordial es reducir

5:35

la latencia, introducir un modelo intermedio que se

5:38

ponga a evaluar coordenadas suena a un proceso

5:41

que, no sé, podría generar su propio cuello

5:43

de botella.

5:44

Ya, parece contraproducente, ¿verdad?

5:46

Un poco, sí.

5:48

¿Cuál es el mecanismo exacto que permite que

5:50

esta evaluación no penalice el tiempo de respuesta

5:52

final y acabemos peor de lo que empezamos?

5:54

Pues la clave reside en la optimización bestial

5:57

de las bases de datos vectoriales y en

5:59

una métrica matemática que es la similitud de

6:02

cosenos.

6:02

El sistema no escanea toda la base de

6:05

datos de principio a fin, secuencialmente.

6:07

Eso sí que sería lento.

6:09

Emplea algoritmos de búsqueda aproximada de vecinos más

6:12

cercanos.

6:14

Digamos que estructuran el espacio vectorial en grafos

6:16

navegables.

6:17

Cuando la nueva consulta entra ya convertida en

6:19

un vector, el sistema calcula el ángulo entre

6:21

ese vector y los que ya tiene almacenados.

6:23

O sea, si el ángulo es muy cerrado,

6:25

es que está muy cerca, ¿no?

6:27

Exacto.

6:28

Un ángulo cerrado indica una altísima similitud semántica.

6:31

Y lo alucinante es que esta operación matemática

6:33

en arquitecturas especializadas ocurre en la escala de

6:36

los milisegundos.

6:37

¡Guau!

6:38

¡Milisegundos!

6:39

Sí, sí.

6:40

Si lo comparas con el proceso autoregresivo de

6:42

un modelo de lenguaje masivo, que, oye, tiene

6:44

que inferir, generar y proyectar las probabilidades del

6:47

siguiente token uno a uno, iterativamente… Claro, la

6:50

búsqueda vectorial le da mil vueltas en velocidad.

6:53

Órdenes de magnitud más veloz.

6:55

De hecho, los datos de implementación de GPT-Caché

6:58

reflejan una reducción de los costes operativos de

7:01

hasta 10 veces.

7:03

10 veces menos coste.

7:05

Y mejorando la velocidad de respuesta por un

7:06

factor de 100 en algunos casos.

7:08

Madre mía.

7:09

Pero claro, un salto de rendimiento de esa

7:12

magnitud requiere una monitorización exhaustiva.

7:16

Desplegar una capa semántica no es darle un

7:18

botón y olvidarse.

7:19

¿Qué va?

7:20

El mantenimiento exige vigilar métricas fundamentales para garantizar

7:24

que la caché no se vuelva loca y

7:26

esté devolviendo resultados imprecisos.

7:28

Claro.

7:29

Entiendo que el hit ratio, el porcentaje de

7:32

aciertos, marca la pauta de la rentabilidad financiera,

7:35

¿no?

7:35

Es decir, ¿qué porcentaje del tráfico nos estamos

7:38

comiendo sin tocar la API de pago?

7:40

Exacto, eso es el dinero que te ahorras

7:43

Y luego tienes la latencia, que básicamente te

7:46

confirma la mejora en la experiencia del usuario,

7:48

que la app va fluida Vale, pero hay

7:51

una tercera métrica, el recall, que me parece

7:54

la más delicada en un entorno así, tan

7:56

probabilístico Es que el recall lo es todo

7:59

para la robustez del sistema, fíjate Básicamente evalúa

8:02

la proporción de consultas que la Cachea atendió

8:05

correctamente Sobre el total de consultas que legítimamente

8:09

debería haber interceptado interceptado.

8:10

O sea, los aciertos reales.

8:12

Eso es.

8:13

Mira, si el umbral de similitud matemática lo

8:16

configuras de manera demasiado restrictiva, en plan tienen

8:19

que ser casi idénticas.

8:20

Pues el hit ratio se desploma y volvemos

8:23

a gastar recursos tontamente, claro.

8:25

Exacto.

8:26

Pero si el umbral es excesivamente laxo y

8:29

dejas pasar cualquier cosa que se parezca un

8:31

poco.

8:31

Uf, peligro.

8:33

Claro, el sistema pecará de falsos positivos.

8:36

Imagínate, entregando una respuesta sobre cómo hacer una

8:39

factura a un usuario que en realidad preguntaba

8:41

por reembolsos.

8:42

Un desastre para la experiencia del usuario.

8:44

O sea, calibrar esa sensibilidad es el núcleo

8:48

de la ingeniería de la caché semántica, por

8:50

lo que veo.

8:51

Es el arte detrás de todo esto totalmente.

8:53

Y al trasladar esa calibración a una infraestructura

8:56

de producción real, supongo que la flexibilidad de

8:59

la herramienta se vuelve crítica, porque a menudo

9:02

adoptar nuevas capas de optimización conlleva el riesgo

9:05

de quedarte atrapado en un ecosistema propietario.

9:09

El temido vendor locking, sí.

9:11

Eso es.

9:11

Si mi equipo ya ha diseñado su arquitectura

9:14

usando, no sé, llama.cpp para ejecutar inferencia en

9:17

local o depende de modelos muy específicos en

9:20

la nube, pues que me impongan un adaptador

9:23

único suele ser motivo de descarte inmediato.

9:25

Y con razón.

9:27

Pero precisamente por ello, la arquitectura de GPTKH

9:29

se ha diseñado bajo un paradigma estrictamente modular.

9:32

No es un bloque monolítico.

9:34

Vale, me gusta eso.

9:35

Es un poco como montar un ordenador a

9:37

piezas, ¿no?

9:38

Un PC custom.

9:39

Justo.

9:40

Es una analogía perfecta.

9:41

El sistema desacopla totalmente la lógica del almacenamiento

9:44

de la interfaz del modelo.

9:46

Tú eliges las piezas.

9:47

O sea, yo elijo mi tarjeta gráfica, que

9:49

sería el LLM.

9:51

Exacto.

9:51

El módulo del adaptador de LLM te permite

9:54

rutear las peticiones hacia la API de OpenAI,

9:56

hacia implementaciones de launching o entornos locales sin

9:59

ninguna fricción.

10:00

Qué bueno.

10:00

Y ojo que no solo hay texto.

10:02

Tienen un adaptador multimodal.

10:04

¿Multimodal?

10:05

Para imágenes y audio.

10:07

Sí, sí.

10:07

Operaciones masivamente pesadas como la síntesis de imágenes

10:11

en Stable Diffusion o transcripciones de audio larguísimas

10:14

con Whisper, todo eso puede beneficiarse de la

10:17

misma retención semántica.

10:18

Claro, te evitas regenerar exactamente el mismo activo

10:21

multimedia si la petición es análoga.

10:23

Es un ahorro brutal.

10:24

Brutal.

10:25

Pero volviendo a la analogía del PC, ese

10:28

nivel de modularidad requiere tomar decisiones sobre el

10:31

hardware, sobre dónde residen físicamente esos datos.

10:36

Veo que la arquitectura separa claramente el lugar

10:39

donde se guardan los vectores, el vector store,

10:42

del lugar donde reside la respuesta cruda, el

10:46

texto final, que sería el Caché storage, o

10:48

sea, el disco duro.

10:49

Exactamente.

10:50

Herramientas como Faiz o Milbus se encargan de

10:53

toda esa matemática vectorial rápida, mientras que bases

10:57

de datos transaccionales de toda la vida, como

10:59

Postgres, custodian los textos de salida.

11:01

Pero claro, esta separación plantea el ineludible problema

11:05

de la saturación bajo carga masiva, porque la

11:07

memoria RAM es la que es, es un

11:09

recurso finito y bastante costoso, por cierto.

11:12

Ya te digo, la degradación del rendimiento por

11:15

saturación de memoria.

11:16

Los famosos errores OOM, Out of Memory.

11:19

Las pesadillas de los de sistemas.

11:22

Es el punto de fallo más habitual en

11:24

implementaciones ingenuas, fíjate.

11:26

Si la aplicación experimenta un pico de tráfico

11:28

por un evento externo, oye, la caché crecerá

11:31

a un ritmo exponencial.

11:31

Y depender exclusivamente de la memoria local de

11:35

un único servidor te garantiza un colapso.

11:38

Matemático.

11:38

Por eso, gestionar el ciclo de vida de

11:41

los datos exige implementar políticas de expulsión agresivas.

11:45

O sea, tirar cosas a la basura.

11:46

Claro.

11:47

El algoritmo LRU, por ejemplo, que descarta los

11:50

elementos que llevan más tiempo sin ser consultados,

11:53

es súper efectivo en apps de cara al

11:55

público, donde el tráfico suele ir por modas

11:57

o temas de actualidad.

11:59

Ya, lo viejo se borra.

12:01

Y supongo que, para evitar la redundancia y

12:03

asegurar alta disponibilidad, pues la arquitectura debe escalar

12:07

horizontalmente.

12:08

Sí o sí.

12:09

Desplegar una Caché distribuida apoyándose en sistemas probados

12:12

como Memcached o Redis.

12:14

O sea, que todo un clúster de servidores

12:17

comparta un único cerebro, un estado único.

12:20

Si un servidor en Europa calcula y guarda

12:22

una respuesta muy compleja, cualquier otro nodo, a

12:25

nivel global, en Asia o América, hereda ese

12:28

acceso instantáneamente.

12:30

Neutralizando la necesidad de duplicar el esfuerzo y

12:34

protegiendo la memoria de cada máquina.

12:36

Brillante.

12:36

Es una infraestructura que resuelve magistralmente la redundancia

12:40

en las respuestas finales.

12:41

Pero.

12:42

Ah, amigo, siempre hay un pero.

12:44

Siempre.

12:45

Porque todo esto de GPT-Caché es genial si

12:48

los usuarios hacen preguntas parecidas.

12:50

Pero, ¿qué pasa si cambiamos las reglas?

12:53

A ver.

12:53

Analicemos el escenario del RAG, el Retrieval Augmented

12:56

Generation.

12:58

En estos sistemas, inyectamos documentos masivos, a veces

13:01

decenas de miles de palabras, en la ventana

13:04

de contexto de la IA.

13:05

Sí, para fundamentar la respuesta y que no

13:07

alucine.

13:08

Exacto.

13:10

Pues imagínate que un usuario le mete a

13:12

la IA un manual técnico de 100 páginas

13:15

y le hace una pregunta súper específica sobre

13:18

el capítulo 3.

13:20

Vale.

13:20

Y 10 minutos después, el mismo usuario u

13:23

otro, con el mismo manual, le hace una

13:26

pregunta completamente diferente sobre el glosario final.

13:29

Claro.

13:30

La caché semántica de resultados aquí falla estrepitosamente

13:33

porque las respuestas que tiene que dar la

13:35

IA deben ser distintas.

13:37

Sí, sí, irremediablemente.

13:39

Porque las salidas esperadas son divergentes.

13:42

Entonces la perspectiva cambia por completo.

13:44

Ya no buscamos reciclar el plato ya cocinado.

13:48

Buscamos otra cosa, que es lo que explica

13:50

la documentación de IBM, ¿no?

13:51

El prompt caching.

13:53

Eso es, el almacenamiento en caché de entradas.

13:55

Que yo lo asocio mucho con la mise

13:58

en place, en la alta gastronomía.

14:00

Me encanta, explícalo.

14:01

Pues a ver, si la caché semántica era

14:04

una nevela donde guardabas el plato ya terminado

14:06

y solo lo calentabas.

14:08

El prompt caching es todo el trabajo preparatorio

14:11

de la cocina.

14:12

El equipo ya ha picado la cebolla, ha

14:14

hecho los caldos, tiene las salsas listas… Todo

14:17

organizado.

14:18

Exacto.

14:19

Si entra una comanda de un plato diferente

14:21

pero que usa esa base, esos mismos caldos,

14:24

te ahorras el 90% del trabajo pesado.

14:26

Es que el concepto de la mise en

14:28

place captura literalmente la esencia de la fase

14:31

de prellenado o el pre-fill en la arquitectura

14:34

de los transformers.

14:35

A ver, explícanos un poco las tripas de

14:36

eso.

14:37

Pues para entender el ahorro hay que visualizar

14:40

el mecanismo interno del LLM.

14:43

Cuando ese manual de 100 páginas entra al

14:44

sistema, el modelo no empieza a escribir texto

14:47

de inmediato.

14:48

No es magia, claro.

14:49

Para nada.

14:50

Los mecanismos de atención de la red neuronal

14:52

tienen que calcular la relación de cada token

14:55

con todos y cada uno de los tokens

14:57

precedentes.

14:58

O sea, entender el contexto de la palabra

15:01

tornillo en la página 50 respecto a la

15:04

página 2.

15:05

Eso es.

15:05

Y ese proceso requiere computar unas matrices gigantescas

15:09

que se conocen como pares clave-valor, los KV

15:12

pairs.

15:13

Y supongo que esa computación se adentra en

15:15

el territorio de la complejidad cuadrática, ¿no?

15:17

Porque si evaluamos 50.000 tokens simultáneamente… Las matemáticas

15:22

se disparan.

15:23

El número de operaciones de multiplicación de matrices

15:25

que la GPU tiene que comerse alcanza cifras

15:28

astronómicas.

15:29

Madre mía.

15:30

Y ojo, que esto se repite en cada

15:32

una de las capas ocultas del transformer.

15:35

El desgaste de ciclos de procesamiento es absoluto.

15:38

Y, claro, como los modelos por defecto no

15:43

tienen memoria de estado, si le mandas la

15:46

segunda pregunta con el mismo manual adjunto, la

15:49

IA desecha todo lo de antes.

15:51

Todo a la basura.

15:52

Inicia el cómputo masivo de los pares clave-valor

15:55

desde la primera letra del manual.

15:58

¡Qué ineficiencia!

15:59

Entonces el prompt caching interviene ahí.

16:02

Exacto.

16:03

Interceptando y guardando estas matrices de atención en

16:06

la memoria VRAM a altísima velocidad de la

16:08

GPU.

16:10

Al detectar que un bloque de texto coincide

16:12

con uno recién procesado, el sistema carga ese

16:15

estado precalculado.

16:16

Ah, o sea, recupera el contexto ya en

16:19

formato matemático.

16:20

Y así solo se esfuerza en calcular los

16:22

tokens nuevos, es decir, la preguntita nueva del

16:25

usuario.

16:26

Eso es.

16:27

Pura eficiencia.

16:28

El impacto en la latencia tiene que ser

16:30

brutal, claro.

16:31

pero exija una precisión, digamos, quirúrgica.

16:35

El sistema tiene que saber rapidísimo qué parte

16:37

recicla y qué parte es nueva.

16:39

Sí, y aquí es donde las reglas del

16:41

juego se ponen estrictas.

16:43

Para discriminar esto, se usa la técnica de

16:45

coincidencia de prefijos, el prefix matching.

16:48

Que evalúa de izquierda a derecha, entiendo.

16:51

Estrictamente secuencial.

16:52

Construye como una estructura de árbol.

16:54

El motor recorre la instrucción nueva token a

16:57

token.

16:57

Mientras todo sea idéntico a lo que hay

16:59

en caché, recicla los pares KV.

17:01

Vale.

17:02

Pero la severidad de esto es que, en

17:04

el instante en que detecta un solo token

17:06

distinto, un carácter, un espacio extra, un salto

17:09

de línea cambiado, se rompe la magia.

17:12

Se rompe de forma irreversible.

17:14

Desde ese punto de divergencia hacia adelante, te

17:16

obliga a ejecutar el cómputo completo otra vez.

17:20

¡Guau!

17:20

O sea que esta rigidez obliga a los

17:22

desarrolladores a replantear la ingeniería de los prompts

17:25

desde los cimientos.

17:26

Totalmente.

17:28

Ya no es cómo escribes para que suene

17:30

bonito, es que la sintaxis determina la rentabilidad

17:33

financiera de tu empresa.

17:36

Es que hay una regla de oro aquí,

17:37

¿no?

17:38

La información debe organizarse en un gradiente estricto,

17:41

de lo más estático a lo más dinámico.

17:45

Eso es fundamental que la audiencia se lo

17:47

grave a fuego.

17:48

Sí, sí.

17:49

O sea, lo que no cambia, arriba del

17:51

todo.

17:52

La arquitectura óptima exige que consolides todos los

17:55

bloques invariables en la cabecera.

17:58

Instrucciones del sistema, en plan, eres un asistente

18:01

útil, el contexto kilométrico del manual, los ejemplos

18:05

estáticos.

18:06

Todo eso primero.

18:07

En los primeros estratos.

18:08

Y la consulta específica y efímera del usuario,

18:11

la pregunta, debe ir estrictamente confinada al final

18:15

del documento.

18:16

Porque si inviertes el orden, catástrofe.

18:18

Si un desarrollador pone la pregunta del usuario

18:20

en la primera línea y luego le pega

18:22

el manual de 100 páginas.

18:23

Pues que el primer token generado por cada

18:26

usuario va a ser diferente siempre.

18:28

Y el prefix matching falla en el milisegundo

18:30

1.

18:31

Invalidas la posibilidad de recuperar el bloque gigante

18:34

que va detrás.

18:34

Exacto.

18:36

Un simple error de concatenar strings en el

18:38

código y te has cargado la eficiencia de

18:40

toda la infraestructura.

18:42

Apagar el cálculo estático en cada petición.

18:44

¡Qué locura!

18:45

Pero, viendo lo elegante que es esta solución,

18:48

a mí me surge una duda.

18:50

¿Por qué no guardamos en caché el contexto

18:52

de absolutamente todo?

18:53

A ver, explícate.

18:54

Pues si un usuario le dice hola a

18:56

un bot.

18:57

Tres palabras.

18:58

La intuición me dice que guardar esos pares

19:01

KB también sería optimizar.

19:03

Todo suma, ¿no?

19:04

Ya, pero en sistemas distribuidos ninguna abstracción te

19:08

sale gratis.

19:09

Claro, el sobrecoste de gestionar la propia caché.

19:12

Exacto.

19:12

Indexar, almacenar en memoria compartida, buscar y transferir

19:17

las matrices a la GPU.

19:19

Todo eso añade latencia y coste.

19:21

O sea, hay un umbral de rentabilidad.

19:23

Sí, los proveedores principales suelen establecer la barrera

19:26

en unos 1024 tokens de entrada.

19:28

Para secuencias más cortas que eso, tardas más

19:31

en buscar en la caché que en dejar

19:32

que el modelo lo procese en bruto.

19:34

Tiene sentido.

19:35

Y me imagino que esta mise en place

19:37

digital es efímera, no dura para siempre.

19:40

Para nada.

19:41

Para no saturar el hardware, operan con políticas

19:43

de expiración súper agresivas, purgando todo tras 5

19:46

o 10 minutos de inactividad.

19:48

O sea, optimizan sesiones densas y rápidas, no

19:51

un histórico a largo plazo.

19:53

Exacto.

19:53

Al final, la lógica de la alta cocina

19:55

prevalece.

19:56

Cuando el servicio acaba, el chef ordena limpiar

19:59

la estación, tira los ingredientes preparados y recupera

20:02

el control de su encimera.

20:03

Es una analogía brillante, sí.

20:06

Encapsula perfectamente el ciclo de vida del procesamiento

20:09

en redes neuronales.

20:11

Y fíjate, contemplar esta evolución hacia la retención

20:13

semántica y estructural a mí me empuja hacia

20:17

una reflexión mucho más profunda.

20:19

A ver, cuéntame.

20:20

Pues sobre la naturaleza futura de estos sistemas.

20:23

Porque si las arquitecturas siguen perfeccionando esto, guardando

20:26

contexto de entrada y semántica de salida, nos

20:29

acercamos a un horizonte de hipereficiencia muy bestia.

20:33

Y cabe plantearse si los grandes modelos masivos

20:36

van a ir reduciendo progresivamente su, digamos, generación

20:40

estocástica real.

20:42

Se acabarán operando, en la práctica, como gigantescos

20:45

repositorios indexados que simplemente actúan como bibliotecarios.

20:49

Recuperando pensamientos precalculados del pasado.

20:52

A la velocidad de la luz, para el

20:54

99% de nuestras interacciones cotidianas.

20:56

¡Qué barbaridad!

20:58

Resulta fascinante reconsiderar así la generación del lenguaje.

21:02

Lo que desde fuera parece, no sé, una

21:04

IA, pensando en tiempo real, bajo el capó

21:07

se transforma en una labor monumental de recuperación

21:10

de estados almacenados.

21:12

Exacto.

21:13

Una coreografía compleja donde la verdadera magia reside

21:16

en evitar pensar la misma idea dos veces.

21:20

Es una perspectiva reveladora sobre la eficiencia matemática

21:23

de esta revolución.

21:24

Antes de despedirnos, hasta el próximo programa, os

21:27

informamos de que las voces que oyes han

21:29

sido generadas por la IA de Notebook LM

21:32

y que dirigiendo el podcast se encuentra Julio

21:35

Pablo Vázquez, un humano que te envía saludos.

21:38

En caso de error, probablemente sean errores humanos.

21:41

¡Nos escuchamos!

21:53

Y hasta aquí el episodio de hoy.

21:55

Muchas gracias por tu atención.

22:06

Esto es BIMPRAXIS.

22:09

Nos escuchamos en el próximo episodio.