E069_Caché_semántica_y_de_prompts_en

0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:42

Hoy os traemos, acelerando la IA, cómo las

0:45

memorias caché están salvando tiempo y dinero en

0:48

la era de los modelos de lenguaje.

0:50

Hola, ¿qué tal?

0:50

Un tema absolutamente vital hoy en día, la

0:53

verdad.

0:54

Totalmente.

0:55

A ver, para ponernos en situación, imaginemos un

0:57

escenario que, bueno, se ha vuelto peligrosamente común,

1:01

diría yo, en la industria tecnológica actual.

1:03

Uf, me lo veo venir.

1:04

Sí, sí.

1:05

Fíjate, un equipo de ingeniería lanzó una aplicación,

1:08

¿vale?

1:09

Respaldada por un modelo de lenguaje generativo masivo.

1:12

La herramienta resuelve una necesidad real, a la

1:15

gente le encanta, la adopción de usuarios se

1:17

dispara, la curva de crecimiento se vuelve vertical

1:20

y...

1:20

Y de repente llega el susto de fin

1:23

de mes.

1:23

Exacto.

1:24

Llega la primera factura de la infraestructura en

1:26

la nube y son, no sé, 50.000 euros.

1:29

Así, de golpe.

1:30

Madre mía, 50.000 euros que duelen físicamente.

1:33

Duelen, duelen mucho.

1:35

Y lo más sangrante del asunto, lo que

1:37

de verdad duele a nivel de ingeniería, es

1:40

que gran parte de ese presupuesto astronómico se

1:42

ha esfumado en generar respuestas que el modelo,

1:45

en la práctica, ya había procesado y calculado

1:49

horas antes para otros usuarios.

1:51

Claro, es que es la paradoja definitiva del

1:53

desarrollo actual.

1:54

O sea, el éxito masivo puede quebrar literalmente

1:57

un proyecto por culpa de una arquitectura ineficiente.

2:00

Es que morir de éxito nunca ha sido

2:01

tan literal, ¿no?

2:03

Totalmente.

2:04

Porque, a ver, el consumo de las APIs

2:06

de inteligencia artificial no funciona como el tráfico

2:08

web tradicional.

2:10

Aquí, la latencia y el coste financiero escalan

2:13

de forma lineal y vamos despiadada con cada

2:16

token generado.

2:17

Cada palabra es dinero.

2:18

Eso es.

2:19

Y frente a esta amenaza, pues la ingeniería

2:21

de software se ha visto obligada a implementar

2:23

unas capas de optimización muy, muy sofisticadas.

2:27

Que es justo nuestra misión de hoy.

2:29

Vamos a diseccionar a nivel técnico las dos

2:33

trincheras principales de esta batalla, ¿verdad?

2:36

Exacto.

2:37

Por un lado, tenemos la caché semántica para

2:39

las respuestas finales, que la vamos a ver

2:41

a través de un proyecto de código abierto

2:43

buenísimo llamado GPT-Caché.

2:45

Mmm, interesantísimo.

2:48

Y por otro lado, el almacenamiento en caché

2:50

pero del procesamiento de entrada, o sea, los

2:53

prompts, basándonos en un análisis técnico muy revelador

2:56

de IBM Technology.

2:58

Vale, pues vamos a empezar por lo básico,

3:00

porque el instinto más fundamental de la informática

3:03

para evitar recalcular cosas siempre ha sido la

3:06

memoria caché.

3:07

¿De toda la vida vamos?

3:08

Claro.

3:09

Si una base de datos ya ha devuelto

3:11

un resultado complejo, pues ese resultado se almacena

3:14

temporalmente y listo.

3:16

Pero el problema de aplicar esta lógica, así,

3:18

tan binaria, a los modelos de lenguaje es

3:20

que la caché tradicional opera bajo un régimen

3:23

de coincidencia léxica absoluta.

3:25

O sea, que tiene que ser exactamente la

3:28

misma letra, el mismo espacio, todo.

3:30

Eso es.

3:31

Yo lo veo como el funcionamiento de un

3:33

restaurante con un protocolo, digamos, extremadamente rígido.

3:37

A ver esa analogía.

3:38

Fíjate, si la primera comanda exige una hamburguesa

3:41

con queso, pues la cocina prepara el plato,

3:44

¿vale?

3:44

Vale.

3:45

Pero si el siguiente cliente entra y solicita

3:47

una hamburguesa que lleve queso, un sistema tradicional,

3:51

una caché clásica, descartaría el trabajo previo por

3:54

completo.

3:55

Claro, porque la cadena de texto no es

3:56

idéntica.

3:57

Exactamente.

3:58

Obligaría a la cocina a empezar el proceso

4:00

de elaboración desde cero, simplemente porque la cadena

4:04

de caracteres no coincide matemáticamente, aunque el cliente

4:07

quiera lo mismo.

4:08

Es que esa variabilidad infinita de la expresión

4:11

humana es lo que destroza por completo el

4:13

índice de aciertos, lo que llamamos el hit

4:16

ratio de las arquitecturas de caché clásicas.

4:19

O sea, un clúster de Redis normal y

4:20

corriente ahí no nos sirve de mucho.

4:22

No, porque evalúa hashes de texto plano.

4:26

Te dice, no es igual y ya está.

4:28

Y para solucionar esta ineficiencia tan crítica, aquí

4:31

es donde entra GPT Caché e introduce una

4:34

capa de evaluación algorítmica previa a la búsqueda.

4:37

Vale, o sea, ¿se pone en medio?

4:38

Exacto.

4:39

Intercepta la consulta.

4:40

En lugar de comparar letras, el sistema coge

4:42

la consulta del usuario y la procesa a

4:44

través de un modelo de embedding ligero.

4:46

Vale, la convierte en vectores.

4:49

Eso es.

4:50

Este modelo transforma la frase en un vector

4:52

denso.

4:53

Digamos, una matriz de números flotantes que representa

4:56

las coordenadas semánticas de esa frase en un

4:58

espacio multidimensional.

5:00

Suena a ciencia ficción, pero básicamente es que

5:02

el sistema deja de buscar palabras exactas y

5:05

empieza a calcular distancias matemáticas, ¿no?

5:08

El significado de fondo.

5:09

Totalmente.

5:10

Entiende el significado.

5:12

Si dos frases apuntan al mismo sitio en

5:14

ese espacio multidimensional, es que significan lo mismo.

5:17

Ya, claro.

5:18

Pero a ver, la conversión a vectores altera

5:21

las reglas del juego, sí.

5:22

Pero calcular esas distancias matemáticas entre cientos de

5:26

miles de registros en tiempo real, a mí

5:29

me suscita dudas sobre el rendimiento.

5:31

Es una duda superlógica.

5:33

Claro, porque si el objetivo primordial es reducir

5:35

la latencia, introducir un modelo intermedio que se

5:38

ponga a evaluar coordenadas suena a un proceso

5:41

que, no sé, podría generar su propio cuello

5:43

de botella.

5:44

Ya, parece contraproducente, ¿verdad?

5:46

Un poco, sí.

5:48

¿Cuál es el mecanismo exacto que permite que

5:50

esta evaluación no penalice el tiempo de respuesta

5:52

final y acabemos peor de lo que empezamos?

5:54

Pues la clave reside en la optimización bestial

5:57

de las bases de datos vectoriales y en

5:59

una métrica matemática que es la similitud de

6:02

cosenos.

6:02

El sistema no escanea toda la base de

6:05

datos de principio a fin, secuencialmente.

6:07

Eso sí que sería lento.

6:09

Emplea algoritmos de búsqueda aproximada de vecinos más

6:12

cercanos.

6:14

Digamos que estructuran el espacio vectorial en grafos

6:16

navegables.

6:17

Cuando la nueva consulta entra ya convertida en

6:19

un vector, el sistema calcula el ángulo entre

6:21

ese vector y los que ya tiene almacenados.

6:23

O sea, si el ángulo es muy cerrado,

6:25

es que está muy cerca, ¿no?

6:27

Exacto.

6:28

Un ángulo cerrado indica una altísima similitud semántica.

6:31

Y lo alucinante es que esta operación matemática

6:33

en arquitecturas especializadas ocurre en la escala de

6:36

los milisegundos.

6:37

¡Guau!

6:38

¡Milisegundos!

6:39

Sí, sí.

6:40

Si lo comparas con el proceso autoregresivo de

6:42

un modelo de lenguaje masivo, que, oye, tiene

6:44

que inferir, generar y proyectar las probabilidades del

6:47

siguiente token uno a uno, iterativamente… Claro, la

6:50

búsqueda vectorial le da mil vueltas en velocidad.

6:53

Órdenes de magnitud más veloz.

6:55

De hecho, los datos de implementación de GPT-Caché

6:58

reflejan una reducción de los costes operativos de

7:01

hasta 10 veces.

7:03

10 veces menos coste.

7:05

Y mejorando la velocidad de respuesta por un

7:06

factor de 100 en algunos casos.

7:08

Madre mía.

7:09

Pero claro, un salto de rendimiento de esa

7:12

magnitud requiere una monitorización exhaustiva.

7:16

Desplegar una capa semántica no es darle un

7:18

botón y olvidarse.

7:19

¿Qué va?

7:20

El mantenimiento exige vigilar métricas fundamentales para garantizar

7:24

que la caché no se vuelva loca y

7:26

esté devolviendo resultados imprecisos.

7:28

Claro.

7:29

Entiendo que el hit ratio, el porcentaje de

7:32

aciertos, marca la pauta de la rentabilidad financiera,

7:35

¿no?

7:35

Es decir, ¿qué porcentaje del tráfico nos estamos

7:38

comiendo sin tocar la API de pago?

7:40

Exacto, eso es el dinero que te ahorras

7:43

Y luego tienes la latencia, que básicamente te

7:46

confirma la mejora en la experiencia del usuario,

7:48

que la app va fluida Vale, pero hay

7:51

una tercera métrica, el recall, que me parece

7:54

la más delicada en un entorno así, tan

7:56

probabilístico Es que el recall lo es todo

7:59

para la robustez del sistema, fíjate Básicamente evalúa

8:02

la proporción de consultas que la Cachea atendió

8:05

correctamente Sobre el total de consultas que legítimamente

8:09

debería haber interceptado interceptado.

8:10

O sea, los aciertos reales.

8:12

Eso es.

8:13

Mira, si el umbral de similitud matemática lo

8:16

configuras de manera demasiado restrictiva, en plan tienen

8:19

que ser casi idénticas.

8:20

Pues el hit ratio se desploma y volvemos

8:23

a gastar recursos tontamente, claro.

8:25

Exacto.

8:26

Pero si el umbral es excesivamente laxo y

8:29

dejas pasar cualquier cosa que se parezca un

8:31

poco.

8:31

Uf, peligro.

8:33

Claro, el sistema pecará de falsos positivos.

8:36

Imagínate, entregando una respuesta sobre cómo hacer una

8:39

factura a un usuario que en realidad preguntaba

8:41

por reembolsos.

8:42

Un desastre para la experiencia del usuario.

8:44

O sea, calibrar esa sensibilidad es el núcleo

8:48

de la ingeniería de la caché semántica, por

8:50

lo que veo.

8:51

Es el arte detrás de todo esto totalmente.

8:53

Y al trasladar esa calibración a una infraestructura

8:56

de producción real, supongo que la flexibilidad de

8:59

la herramienta se vuelve crítica, porque a menudo

9:02

adoptar nuevas capas de optimización conlleva el riesgo

9:05

de quedarte atrapado en un ecosistema propietario.

9:09

El temido vendor locking, sí.

9:11

Eso es.

9:11

Si mi equipo ya ha diseñado su arquitectura

9:14

usando, no sé, llama.cpp para ejecutar inferencia en

9:17

local o depende de modelos muy específicos en

9:20

la nube, pues que me impongan un adaptador

9:23

único suele ser motivo de descarte inmediato.

9:25

Y con razón.

9:27

Pero precisamente por ello, la arquitectura de GPTKH

9:29

se ha diseñado bajo un paradigma estrictamente modular.

9:32

No es un bloque monolítico.

9:34

Vale, me gusta eso.

9:35

Es un poco como montar un ordenador a

9:37

piezas, ¿no?

9:38

Un PC custom.

9:39

Justo.

9:40

Es una analogía perfecta.

9:41

El sistema desacopla totalmente la lógica del almacenamiento

9:44

de la interfaz del modelo.

9:46

Tú eliges las piezas.

9:47

O sea, yo elijo mi tarjeta gráfica, que

9:49

sería el LLM.

9:51

Exacto.

9:51

El módulo del adaptador de LLM te permite

9:54

rutear las peticiones hacia la API de OpenAI,

9:56

hacia implementaciones de launching o entornos locales sin

9:59

ninguna fricción.

10:00

Qué bueno.

10:00

Y ojo que no solo hay texto.

10:02

Tienen un adaptador multimodal.

10:04

¿Multimodal?

10:05

Para imágenes y audio.

10:07

Sí, sí.

10:07

Operaciones masivamente pesadas como la síntesis de imágenes

10:11

en Stable Diffusion o transcripciones de audio larguísimas

10:14

con Whisper, todo eso puede beneficiarse de la

10:17

misma retención semántica.

10:18

Claro, te evitas regenerar exactamente el mismo activo

10:21

multimedia si la petición es análoga.

10:23

Es un ahorro brutal.

10:24

Brutal.

10:25

Pero volviendo a la analogía del PC, ese

10:28

nivel de modularidad requiere tomar decisiones sobre el

10:31

hardware, sobre dónde residen físicamente esos datos.

10:36

Veo que la arquitectura separa claramente el lugar

10:39

donde se guardan los vectores, el vector store,

10:42

del lugar donde reside la respuesta cruda, el

10:46

texto final, que sería el Caché storage, o

10:48

sea, el disco duro.

10:49

Exactamente.

10:50

Herramientas como Faiz o Milbus se encargan de

10:53

toda esa matemática vectorial rápida, mientras que bases

10:57

de datos transaccionales de toda la vida, como

10:59

Postgres, custodian los textos de salida.

11:01

Pero claro, esta separación plantea el ineludible problema

11:05

de la saturación bajo carga masiva, porque la

11:07

memoria RAM es la que es, es un

11:09

recurso finito y bastante costoso, por cierto.

11:12

Ya te digo, la degradación del rendimiento por

11:15

saturación de memoria.

11:16

Los famosos errores OOM, Out of Memory.

11:19

Las pesadillas de los de sistemas.

11:22

Es el punto de fallo más habitual en

11:24

implementaciones ingenuas, fíjate.

11:26

Si la aplicación experimenta un pico de tráfico

11:28

por un evento externo, oye, la caché crecerá

11:31

a un ritmo exponencial.

11:31

Y depender exclusivamente de la memoria local de

11:35

un único servidor te garantiza un colapso.

11:38

Matemático.

11:38

Por eso, gestionar el ciclo de vida de

11:41

los datos exige implementar políticas de expulsión agresivas.

11:45

O sea, tirar cosas a la basura.

11:46

Claro.

11:47

El algoritmo LRU, por ejemplo, que descarta los

11:50

elementos que llevan más tiempo sin ser consultados,

11:53

es súper efectivo en apps de cara al

11:55

público, donde el tráfico suele ir por modas

11:57

o temas de actualidad.

11:59

Ya, lo viejo se borra.

12:01

Y supongo que, para evitar la redundancia y

12:03

asegurar alta disponibilidad, pues la arquitectura debe escalar

12:07

horizontalmente.

12:08

Sí o sí.

12:09

Desplegar una Caché distribuida apoyándose en sistemas probados

12:12

como Memcached o Redis.

12:14

O sea, que todo un clúster de servidores

12:17

comparta un único cerebro, un estado único.

12:20

Si un servidor en Europa calcula y guarda

12:22

una respuesta muy compleja, cualquier otro nodo, a

12:25

nivel global, en Asia o América, hereda ese

12:28

acceso instantáneamente.

12:30

Neutralizando la necesidad de duplicar el esfuerzo y

12:34

protegiendo la memoria de cada máquina.

12:36

Brillante.

12:36

Es una infraestructura que resuelve magistralmente la redundancia

12:40

en las respuestas finales.

12:41

Pero.

12:42

Ah, amigo, siempre hay un pero.

12:44

Siempre.

12:45

Porque todo esto de GPT-Caché es genial si

12:48

los usuarios hacen preguntas parecidas.

12:50

Pero, ¿qué pasa si cambiamos las reglas?

12:53

A ver.

12:53

Analicemos el escenario del RAG, el Retrieval Augmented

12:56

Generation.

12:58

En estos sistemas, inyectamos documentos masivos, a veces

13:01

decenas de miles de palabras, en la ventana

13:04

de contexto de la IA.

13:05

Sí, para fundamentar la respuesta y que no

13:07

alucine.

13:08

Exacto.

13:10

Pues imagínate que un usuario le mete a

13:12

la IA un manual técnico de 100 páginas

13:15

y le hace una pregunta súper específica sobre

13:18

el capítulo 3.

13:20

Vale.

13:20

Y 10 minutos después, el mismo usuario u

13:23

otro, con el mismo manual, le hace una

13:26

pregunta completamente diferente sobre el glosario final.

13:29

Claro.

13:30

La caché semántica de resultados aquí falla estrepitosamente

13:33

porque las respuestas que tiene que dar la

13:35

IA deben ser distintas.

13:37

Sí, sí, irremediablemente.

13:39

Porque las salidas esperadas son divergentes.

13:42

Entonces la perspectiva cambia por completo.

13:44

Ya no buscamos reciclar el plato ya cocinado.

13:48

Buscamos otra cosa, que es lo que explica

13:50

la documentación de IBM, ¿no?

13:51

El prompt caching.

13:53

Eso es, el almacenamiento en caché de entradas.

13:55

Que yo lo asocio mucho con la mise

13:58

en place, en la alta gastronomía.

14:00

Me encanta, explícalo.

14:01

Pues a ver, si la caché semántica era

14:04

una nevela donde guardabas el plato ya terminado

14:06

y solo lo calentabas.

14:08

El prompt caching es todo el trabajo preparatorio

14:11

de la cocina.

14:12

El equipo ya ha picado la cebolla, ha

14:14

hecho los caldos, tiene las salsas listas… Todo

14:17

organizado.

14:18

Exacto.

14:19

Si entra una comanda de un plato diferente

14:21

pero que usa esa base, esos mismos caldos,

14:24

te ahorras el 90% del trabajo pesado.

14:26

Es que el concepto de la mise en

14:28

place captura literalmente la esencia de la fase

14:31

de prellenado o el pre-fill en la arquitectura

14:34

de los transformers.

14:35

A ver, explícanos un poco las tripas de

14:36

eso.

14:37

Pues para entender el ahorro hay que visualizar

14:40

el mecanismo interno del LLM.

14:43

Cuando ese manual de 100 páginas entra al

14:44

sistema, el modelo no empieza a escribir texto

14:47

de inmediato.

14:48

No es magia, claro.

14:49

Para nada.

14:50

Los mecanismos de atención de la red neuronal

14:52

tienen que calcular la relación de cada token

14:55

con todos y cada uno de los tokens

14:57

precedentes.

14:58

O sea, entender el contexto de la palabra

15:01

tornillo en la página 50 respecto a la

15:04

página 2.

15:05

Eso es.

15:05

Y ese proceso requiere computar unas matrices gigantescas

15:09

que se conocen como pares clave-valor, los KV

15:12

pairs.

15:13

Y supongo que esa computación se adentra en

15:15

el territorio de la complejidad cuadrática, ¿no?

15:17

Porque si evaluamos 50.000 tokens simultáneamente… Las matemáticas

15:22

se disparan.

15:23

El número de operaciones de multiplicación de matrices

15:25

que la GPU tiene que comerse alcanza cifras

15:28

astronómicas.

15:29

Madre mía.

15:30

Y ojo, que esto se repite en cada

15:32

una de las capas ocultas del transformer.

15:35

El desgaste de ciclos de procesamiento es absoluto.

15:38

Y, claro, como los modelos por defecto no

15:43

tienen memoria de estado, si le mandas la

15:46

segunda pregunta con el mismo manual adjunto, la

15:49

IA desecha todo lo de antes.

15:51

Todo a la basura.

15:52

Inicia el cómputo masivo de los pares clave-valor

15:55

desde la primera letra del manual.

15:58

¡Qué ineficiencia!

15:59

Entonces el prompt caching interviene ahí.

16:02

Exacto.

16:03

Interceptando y guardando estas matrices de atención en

16:06

la memoria VRAM a altísima velocidad de la

16:08

GPU.

16:10

Al detectar que un bloque de texto coincide

16:12

con uno recién procesado, el sistema carga ese

16:15

estado precalculado.

16:16

Ah, o sea, recupera el contexto ya en

16:19

formato matemático.

16:20

Y así solo se esfuerza en calcular los

16:22

tokens nuevos, es decir, la preguntita nueva del

16:25

usuario.

16:26

Eso es.

16:27

Pura eficiencia.

16:28

El impacto en la latencia tiene que ser

16:30

brutal, claro.

16:31

pero exija una precisión, digamos, quirúrgica.

16:35

El sistema tiene que saber rapidísimo qué parte

16:37

recicla y qué parte es nueva.

16:39

Sí, y aquí es donde las reglas del

16:41

juego se ponen estrictas.

16:43

Para discriminar esto, se usa la técnica de

16:45

coincidencia de prefijos, el prefix matching.

16:48

Que evalúa de izquierda a derecha, entiendo.

16:51

Estrictamente secuencial.

16:52

Construye como una estructura de árbol.

16:54

El motor recorre la instrucción nueva token a

16:57

token.

16:57

Mientras todo sea idéntico a lo que hay

16:59

en caché, recicla los pares KV.

17:01

Vale.

17:02

Pero la severidad de esto es que, en

17:04

el instante en que detecta un solo token

17:06

distinto, un carácter, un espacio extra, un salto

17:09

de línea cambiado, se rompe la magia.

17:12

Se rompe de forma irreversible.

17:14

Desde ese punto de divergencia hacia adelante, te

17:16

obliga a ejecutar el cómputo completo otra vez.

17:20

¡Guau!

17:20

O sea que esta rigidez obliga a los

17:22

desarrolladores a replantear la ingeniería de los prompts

17:25

desde los cimientos.

17:26

Totalmente.

17:28

Ya no es cómo escribes para que suene

17:30

bonito, es que la sintaxis determina la rentabilidad

17:33

financiera de tu empresa.

17:36

Es que hay una regla de oro aquí,

17:37

¿no?

17:38

La información debe organizarse en un gradiente estricto,

17:41

de lo más estático a lo más dinámico.

17:45

Eso es fundamental que la audiencia se lo

17:47

grave a fuego.

17:48

Sí, sí.

17:49

O sea, lo que no cambia, arriba del

17:51

todo.

17:52

La arquitectura óptima exige que consolides todos los

17:55

bloques invariables en la cabecera.

17:58

Instrucciones del sistema, en plan, eres un asistente

18:01

útil, el contexto kilométrico del manual, los ejemplos

18:05

estáticos.

18:06

Todo eso primero.

18:07

En los primeros estratos.

18:08

Y la consulta específica y efímera del usuario,

18:11

la pregunta, debe ir estrictamente confinada al final

18:15

del documento.

18:16

Porque si inviertes el orden, catástrofe.

18:18

Si un desarrollador pone la pregunta del usuario

18:20

en la primera línea y luego le pega

18:22

el manual de 100 páginas.

18:23

Pues que el primer token generado por cada

18:26

usuario va a ser diferente siempre.

18:28

Y el prefix matching falla en el milisegundo

18:30

1.

18:31

Invalidas la posibilidad de recuperar el bloque gigante

18:34

que va detrás.

18:34

Exacto.

18:36

Un simple error de concatenar strings en el

18:38

código y te has cargado la eficiencia de

18:40

toda la infraestructura.

18:42

Apagar el cálculo estático en cada petición.

18:44

¡Qué locura!

18:45

Pero, viendo lo elegante que es esta solución,

18:48

a mí me surge una duda.

18:50

¿Por qué no guardamos en caché el contexto

18:52

de absolutamente todo?

18:53

A ver, explícate.

18:54

Pues si un usuario le dice hola a

18:56

un bot.

18:57

Tres palabras.

18:58

La intuición me dice que guardar esos pares

19:01

KB también sería optimizar.

19:03

Todo suma, ¿no?

19:04

Ya, pero en sistemas distribuidos ninguna abstracción te

19:08

sale gratis.

19:09

Claro, el sobrecoste de gestionar la propia caché.

19:12

Exacto.

19:12

Indexar, almacenar en memoria compartida, buscar y transferir

19:17

las matrices a la GPU.

19:19

Todo eso añade latencia y coste.

19:21

O sea, hay un umbral de rentabilidad.

19:23

Sí, los proveedores principales suelen establecer la barrera

19:26

en unos 1024 tokens de entrada.

19:28

Para secuencias más cortas que eso, tardas más

19:31

en buscar en la caché que en dejar

19:32

que el modelo lo procese en bruto.

19:34

Tiene sentido.

19:35

Y me imagino que esta mise en place

19:37

digital es efímera, no dura para siempre.

19:40

Para nada.

19:41

Para no saturar el hardware, operan con políticas

19:43

de expiración súper agresivas, purgando todo tras 5

19:46

o 10 minutos de inactividad.

19:48

O sea, optimizan sesiones densas y rápidas, no

19:51

un histórico a largo plazo.

19:53

Exacto.

19:53

Al final, la lógica de la alta cocina

19:55

prevalece.

19:56

Cuando el servicio acaba, el chef ordena limpiar

19:59

la estación, tira los ingredientes preparados y recupera

20:02

el control de su encimera.

20:03

Es una analogía brillante, sí.

20:06

Encapsula perfectamente el ciclo de vida del procesamiento

20:09

en redes neuronales.

20:11

Y fíjate, contemplar esta evolución hacia la retención

20:13

semántica y estructural a mí me empuja hacia

20:17

una reflexión mucho más profunda.

20:19

A ver, cuéntame.

20:20

Pues sobre la naturaleza futura de estos sistemas.

20:23

Porque si las arquitecturas siguen perfeccionando esto, guardando

20:26

contexto de entrada y semántica de salida, nos

20:29

acercamos a un horizonte de hipereficiencia muy bestia.

20:33

Y cabe plantearse si los grandes modelos masivos

20:36

van a ir reduciendo progresivamente su, digamos, generación

20:40

estocástica real.

20:42

Se acabarán operando, en la práctica, como gigantescos

20:45

repositorios indexados que simplemente actúan como bibliotecarios.

20:49

Recuperando pensamientos precalculados del pasado.

20:52

A la velocidad de la luz, para el

20:54

99% de nuestras interacciones cotidianas.

20:56

¡Qué barbaridad!

20:58

Resulta fascinante reconsiderar así la generación del lenguaje.

21:02

Lo que desde fuera parece, no sé, una

21:04

IA, pensando en tiempo real, bajo el capó

21:07

se transforma en una labor monumental de recuperación

21:10

de estados almacenados.

21:12

Exacto.

21:13

Una coreografía compleja donde la verdadera magia reside

21:16

en evitar pensar la misma idea dos veces.

21:20

Es una perspectiva reveladora sobre la eficiencia matemática

21:23

de esta revolución.

21:24

Antes de despedirnos, hasta el próximo programa, os

21:27

informamos de que las voces que oyes han

21:29

sido generadas por la IA de Notebook LM

21:32

y que dirigiendo el podcast se encuentra Julio

21:35

Pablo Vázquez, un humano que te envía saludos.

21:38

En caso de error, probablemente sean errores humanos.

21:41

¡Nos escuchamos!

21:53

Y hasta aquí el episodio de hoy.

21:55

Muchas gracias por tu atención.

22:06

Esto es BIMPRAXIS.

22:09

Nos escuchamos en el próximo episodio.

E069_Caché_semántica_y_de_prompts_en_IA

Episode description

Descripción del Episodio

Persons