E054_RSA_(Recursive_Self-Aggregation)_¿En_un_RAG

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

¡Hola, humanas y humanos!

0:39

Aquí estamos con un episodio nuevo de BIMPRAXIS.

0:44

En el episodio de hoy, seguimos profundizando en

0:48

técnicas innovadoras para que los modelos de IA

0:50

ofrezcan resultados de más calidad.

0:53

Ya veréis qué interesante.

0:55

Porque hoy vamos a analizar a fondo una

0:57

de esas técnicas que, bueno, parecen casi ciencia

1:00

ficción, pero que ya están dando unos resultados

1:02

sorprendentes.

1:04

¡Hola!

1:04

¿Qué tal?

1:05

Pues sí, es un tema fascinante.

1:07

El punto de partida es una gráfica que

1:10

ha llamado mucho la atención.

1:12

Vemos un modelo como Gemini Flash 3, que

1:16

está diseñado para ser rápido, ligero… El pequeño

1:20

de la familia, por así decirlo.

1:22

Exacto.

1:23

Y de repente supera a gigantes como GPT

1:26

5 .2 Hive o Claude Opus 4 .5.

1:31

La pregunta es obvia.

1:32

¿Cómo es posible?

1:33

Y la respuesta está en un concepto llamado

1:36

autoagregación recurrente, o RSA para abreviar.

1:40

Vamos a desgranar cómo funciona.

1:42

Que tiene miga.

1:43

Exacto.

1:43

La pregunta clave que resuelve esta técnica es,

1:46

si entrenar y reentrenar modelos cada vez más

1:49

grandes es carísimo, o sea, es insostenible.

1:52

Claro.

1:52

¿Cómo podemos exprimir al máximo la inteligencia que

1:55

ya tienen sin tener que modificar sus parámetros?

1:58

Y la solución, por lo que parece, es

2:00

hacer que trabajen más tiempo.

2:02

Más tiempo, pero de forma inteligente.

2:04

En el momento de la inferencia, que es

2:06

cuando generan la respuesta.

2:08

Y el método RSA es una forma muy,

2:10

muy ingeniosa de gestionar… Vale, pues antes de

2:14

meternos de lleno en esta evolución artificial, que

2:17

es como la llaman, creo que deberíamos explicar

2:19

las formas más comunes de hacer que un

2:21

modelo piense más en un problema.

2:24

Sí, para entender lo nuevo, hay que ver

2:26

lo de antes.

2:27

La primera es la que podríamos llamar, no

2:29

sé, la fuerza bruta en paralelo.

2:31

Correcto.

2:32

Consiste de forma muy simple en pedirle al

2:34

modelo que genere, por ejemplo, 20 respuestas diferentes

2:37

a la misma pregunta.

2:39

Y luego, supongo, se hace una especie de

2:41

votación.

2:42

Justo.

2:42

Un sistema de votación.

2:43

Si 15 de las 20 respuestas dicen lo

2:46

mismo, se asume que esa es la más

2:48

probable de ser correcta.

2:49

El problema que le veo, y que comentan

2:51

las fuentes, es que cada una de esas

2:53

20 respuestas es como tirar un dado una

2:56

vez.

2:57

Le das 20 oportunidades, sí, pero en cada

3:00

una de ellas tiene que salir todo perfecto

3:02

a la primera.

3:03

No hay un proceso de mejora entre un

3:05

intento y el siguiente.

3:06

Precisamente.

3:07

Esa es la gran limitación.

3:08

Hay amplitud, pero no hay profundidad.

3:11

Y por eso surgió la otra estrategia.

3:13

¿La secuencial?

3:14

La secuencial, o de autocorrección.

3:16

Aquí el modelo genera una primera respuesta, y

3:19

luego se le pide que la revise y

3:21

la corrija.

3:21

Como si fuera su propio profesor o editor.

3:24

Eso es, en un proceso paso a paso.

3:26

Este es mi borrador, ahora lo reviso.

3:29

Ah, mira, aquí he fallado.

3:31

Lo corrijo.

3:31

Suena mejor, la verdad.

3:33

Pero también tiene un punto débil, ¿no?

3:35

Sí.

3:35

Es como si, al escribir un texto, te

3:38

centraras tanto en mejorar una frase, que no

3:40

te das cuenta de que todo el párrafo

3:42

se basa en una idea equivocada.

3:44

Has dado en el clavo.

3:45

El modelo puede atascarse mejorando una idea sin

3:47

explorar otras que podrían ser mucho mejores.

3:50

Le falta diversidad.

3:51

Se queda atascado en lo que en optimización

3:54

llaman un mínimo local.

3:55

Justamente.

3:56

Teníamos un método con amplitud, pero sin profundidad,

3:59

y otro con profundidad, pero sin amplitud.

4:01

Y aquí, por fin, es donde entra la

4:03

autoagregación recursiva, o RSA.

4:06

Para combinar lo mejor de los dos mundos.

4:08

¿La idea central?

4:09

Es fascinante.

4:11

Trata a las respuestas como si fueran una

4:13

población en un proceso de evolución.

4:15

Es una analogía muy potente y muy acertada.

4:18

El proceso, explicado de forma sencilla, sigue varios

4:22

pasos.

4:23

Podemos usar un ejemplo de las fuentes para

4:25

que quede más claro.

4:26

Perfecto.

4:27

Mencionaban el de calcular el factorial de 136.

4:31

Ideal, porque implica muchísimas multiplicaciones seguidas.

4:34

Un error en una de ellas y ya

4:36

está todo mal.

4:37

Vale, pues, primer paso.

4:39

¿El modelo?

4:39

No genera una, sino una población.

4:41

Digamos, ocho respuestas distintas.

4:44

Ya tenemos la diversidad del primer método.

4:46

Algunas serán parecidas, otras muy diferentes, con fallos

4:50

en distintos puntos.

4:51

Exacto.

4:52

Segundo paso.

4:53

Se identifican los genes.

4:54

¿Los genes?

4:55

Sí.

4:56

Cada parte de la respuesta, cada multiplicación en

4:59

este ejemplo, es un gen.

5:00

Un gen puede ser correcto o incorrecto.

5:03

Imagina que la respuesta número uno hace todo

5:06

bien hasta multiplicar 56 por 55.

5:09

¿Por qué se equivoca?

5:10

Vale.

5:11

Pues, todo lo anterior a ese error es

5:13

un gen bueno.

5:14

Una secuencia correcta.

5:15

Entiendo.

5:16

Y Kikó es la respuesta número seis, se

5:18

equivocó al principio.

5:20

Pero a partir de esa multiplicación, la de

5:22

56 por 55, lo hizo todo perfecto.

5:26

Justo.

5:27

Esa parte final es otro gen bueno.

5:29

Ya veo por dónde vas.

5:30

Se buscan los trozos buenos en todas las

5:32

respuestas, aunque la respuesta entera esté mal.

5:34

Eso es.

5:36

Y ahora viene el tercer paso.

5:37

El corazón del asunto.

5:39

¿El corazón del asunto?

5:39

La agregación.

5:40

La reproducción.

5:41

Algo así.

5:42

Se cogen varias respuestas al azar de la

5:45

población, por ejemplo cuatro, y se le presentan

5:48

a un modelo juez.

5:49

¿Que es otro modelo distinto?

5:50

No.

5:51

Y eso es importante.

5:52

Es el mismo modelo, pero con una instrucción,

5:55

con un prompt específico.

5:57

El juez tiene la tarea de analizar esos

5:59

genes y construir una nueva respuesta que sólo

6:02

contenga los buenos, los correctos.

6:04

O sea, una especie de Frankenstein optimizado.

6:07

Has dado en el clavo.

6:09

Y coge las partes buenas de varias respuestas

6:11

para crear una nueva que es superior a

6:13

cualquiera de las originales.

6:15

Exacto.

6:15

Y lo crucial es el cuarto paso.

6:18

Recursivo.

6:19

Este proceso no se hace una sola vez.

6:21

Ah, claro.

6:23

Se repite para crear una nueva generación de

6:25

respuestas que a su vez sirve de base

6:27

para la siguiente.

6:28

La población de respuestas va evolucionando.

6:31

Y cada generación es, en teoría, más correcta,

6:35

más apta que la anterior.

6:36

Es un ciclo de mejora continua.

6:38

¿Es brillante?

6:39

Es que es brillante.

6:40

Lo es.

6:41

Y claro, los resultados son la prueba de

6:43

que funciona.

6:44

En benchmarks de matemáticas, de código, de razonamiento

6:47

general, RSA ha demostrado ser superior a los

6:50

métodos anteriores.

6:51

Sí, por un margen considerable.

6:53

Esto explica perfectamente la gráfica del principio.

6:55

Como modelos más ligeros pueden, de repente, competir

6:58

e incluso ganar a los más pesados.

7:00

Aunque es importante matizar una cosa que señalan

7:03

las fuentes.

7:03

A ver.

7:04

En un área específica, la de recordar conocimiento

7:07

puro y duro.

7:07

Un dato, vamos.

7:09

La capital de Mongolia.

7:10

Por ejemplo.

7:11

Ahí, la estrategia simple de la votación mayoritaria

7:14

sigue siendo más eficaz.

7:16

RSA brilla en tareas que requieren razonamiento complejo.

7:19

Lo cual tiene todo el sentido del mundo.

7:21

No hay nada que razonar en un dato

7:23

puro.

7:24

O se sabe o no se sabe.

7:25

Correcto.

7:26

RSA no es para recuperar datos, es para

7:28

procesarlos.

7:29

Y esto nos lleva a una de sus

7:31

aplicaciones más útiles.

7:32

Los sistemas RAG, ¿verdad?

7:34

Retrieval Augmented Generation.

7:36

Justo.

7:37

Los que consultan documentos para responder.

7:40

Ahí el riesgo de error es alto.

7:41

Altísimo.

7:42

Y las fuentes describen un ejemplo muy claro.

7:44

Un sistema RAG para ingenieros que consultan manuales

7:47

técnicos.

7:48

La consulta es, ¿cómo solucionar el error de

7:51

presión en la válvula X4?

7:53

Un entorno donde un error puede ser grave.

7:55

Muy grave.

7:56

El sistema recupera varios fragmentos de los manuales.

8:00

Y a partir de ahí, genera su población

8:02

de respuestas.

8:03

Imagina dos candidatos.

8:05

Venga.

8:05

Un candidato de respuesta identifica bien los pasos

8:08

de seguridad, pero se equivoca en las herramientas

8:11

que hay que usar.

8:12

Mal.

8:13

Otro candidato acierta con las herramientas, pero olvida

8:16

un paso de seguridad crítico.

8:17

Peor todavía.

8:18

Exacto.

8:19

Por sí solas, ambas respuestas son un desastre

8:22

potencial.

8:23

Pero con RSA, el juez identifica el gen

8:26

bueno de la seguridad del primero.

8:28

Y el gen bueno de las herramientas del

8:30

segundo.

8:31

Y los combina en una respuesta final completa

8:33

y correcta.

8:34

Reduce muchísimo el riesgo de alucinaciones o de

8:37

errores lógicos.

8:38

Una de las cosas que más me llama

8:39

la atención es que, según el análisis, la

8:42

implementación de RSA es bastante sencilla.

8:46

Relativamente, sí.

8:47

El prompt para el modelo juez es tan

8:50

simple como agrega ideas útiles y produce una

8:53

sola respuesta de alta calidad.

8:55

Sí.

8:56

Su accesibilidad es un punto a favor.

8:58

No requiere una ingeniería de prompts súper compleja.

9:01

Sin embargo, el autor del análisis original indica

9:04

que no.

9:04

Y entonces se introduce una idea que me

9:05

parece, bueno, me parece clave.

9:07

¿Cuál?

9:07

El crema es en una explosión del trabajo

9:10

que en una explosión de la inteligencia.

9:12

Explosión del trabajo.

9:13

¿Qué significa eso exactamente?

9:15

Pues que si tomas un modelo que ya

9:16

es muy inteligente y le das un proceso

9:18

estructurado como RSA, junto con muchísimo tiempo de

9:21

cómputo.

9:22

Claro, porque esto consume tiempo.

9:24

Mucho tiempo.

9:25

El resultado puede parecer súper inteligente, pero no

9:28

es que el modelo base sea mágicamente más

9:29

listo.

9:30

Entiendo.

9:31

Sino que se le ha dado un método.

9:32

Y los recursos para trabajar así.

9:34

Y eso puede llevar en un problema a

9:34

un nivel de profundidad que antes era imposible.

9:37

Es una distinción muy importante.

9:39

No es que la IA sea de repente

9:41

más consciente, sino que le hemos dado un

9:43

método de trabajo mucho mejor.

9:45

Exacto.

9:46

Hemos pasado de pedirle que corra un sprint

9:48

a darle un plan de entrenamiento y los

9:50

medios para correr una maratón.

9:52

Entonces, si esta es la explosión del trabajo,

9:56

¿cuál es la limitación?

9:58

O bueno, ¿cuál es el siguiente paso?

10:00

La gran ventaja de RSA es que no

10:03

necesita verificadores.

10:05

¿Se autocorrige?

10:06

Se autocorrige, sí.

10:07

No tiene que consultar Internet o ejecutar código

10:09

para saber si va por buen camino.

10:11

Sin embargo, el análisis sugiere que las versiones

10:14

más potentes en el futuro… Mmm, probablemente sí

10:17

incorporarán esa verificación externa.

10:19

Sin duda.

10:20

Además de otras técnicas como dividir problemas complejos

10:23

en tareas más pequeñas.

10:25

RSA es un método potentísimo.

10:27

Pero es una pieza del puzzle.

10:29

Exacto.

10:30

Quizá es sólo una pieza del puzzle final

10:32

para alcanzar un razonamiento.

10:34

Un razonamiento artificial aún más robusto.

10:37

Imagina combinar la evolución interna de RSA con

10:40

la capacidad de contrastar las ideas con el

10:42

mundo real.

10:43

Que el modelo pueda pararse y decir, a

10:46

ver, esta pieza de código que he creado,

10:48

¿funciona si la ejecuto de verdad?

10:50

O este dato que estoy usando, puedo verificarlo

10:53

en una fuente fiable en tiempo real.

10:55

Eso sería un salto cualitativo enorme.

10:57

La verdad es que sí.

10:58

Por eso, RSA es un avance formidable en

11:02

cómo organizar el trabajo de una IA.

11:04

El siguiente gran avance vendrá de conectar ese

11:06

trabajo con la realidad.

11:08

Nos despedimos por hoy.

11:09

No sin antes recordar que las voces que

11:12

escuchas son generadas por una IA, Notebook LM.

11:15

Pero el podcast no se genera de forma

11:17

automática, no.

11:18

Detrás de todo lo que escuchas está un

11:20

humano, que os manda saludos, que se llama

11:22

Julio Pablo Vázquez.

11:24

Muchas gracias y hasta el próximo episodio.

11:37

Y hasta aquí el episodio de hoy.

11:39

Muchas gracias por tu atención.

11:52

BIMPRAXIS.

11:53

Nos escuchamos en el próximo episodio.

E054_RSA_(Recursive_Self-Aggregation)_¿En_un_RAG_

Episode description

Episodio de BIMPRAXIS: Autoagregación Recursiva (RSA) en Inteligencia Artificial

Persons