E032_La destilación del conocimiento en los modelos de lenguaje grandes (LLM)

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidas y bienvenidos a un nuevo análisis.

0:41

Hoy es un día especial porque llegamos al número 18 de la serie que BIMPRAXIS dedica a

0:46

los papers que cambiaron la historia de la IA.

0:49

Y bueno, con este nos adentramos en territorio casi desconocido.

0:53

Creo que es la primera vez que analizamos un artículo del futuro.

0:58

Es que es increíble. Lo estaba mirando antes de empezar.

1:01

El artículo principal que vamos a desgranar hoy tiene fecha de publicación de julio de 2025.

1:07

Estamos a meses de distancia.

1:09

Ya, ya.

1:10

Nos estamos acercando peligrosamente al final de la serie, ¿no es así?

1:14

Peligrosamente es la palabra.

1:16

La historia, o en este caso el futuro, nos está pisando los talones, literalmente.

1:22

Normalmente miramos al pasado, pero es que hoy el presente casi nos ha alcanzado.

1:26

La historia nos atropella.

1:28

Pues precisamente por eso, porque la escala de la IA avanza a esta velocidad de vértigo,

1:33

hoy nos sumergimos en un concepto clave para poder manejarla.

1:37

La destilación de conocimiento.

1:39

Un término que es una casi alquimia, ¿verdad?

1:41

Pero que es fundamental para que la IA no sea solo cosa de superordenación,

1:46

sino algo que podamos llevar en el bolsillo.

1:48

Exacto.

1:49

Nuestra misión de hoy.

1:51

Entender qué es eso de destilar conocimiento,

1:53

por qué es vital para los gigantescos modelos de lenguaje actuales,

1:56

y cómo esta técnica del futuro cercano propone hacerlo de una forma radicalmente más eficiente.

2:02

Y para eso tenemos dos fuentes, ¿no?

2:04

Sí.

2:05

Contamos con un artículo general que nos va a dar las bases,

2:08

y el ya mencionado paper de 2025 que nos mostrará la vanguardia absoluta.

2:12

Rimbombante.

2:13

Es sorprendentemente intuitiva.

2:15

¿Verdad?

2:16

Se basa en una de las formas de aprendizaje más antiguas que existen.

2:20

¿La del maestro y del aprendiz?

2:22

Justo.

2:23

Vale, me gusta por dónde vas.

2:24

Imaginemos un modelo de IA enorme, potentísimo, que ha costado millones entrenar.

2:29

Ese sería nuestro profesor.

2:31

Eso es.

2:32

Y luego tenemos un modelo mucho más pequeño, ágil,

2:35

que queremos que sea igual de listo, pero sin tanto coste.

2:38

Nuestro alumno.

2:39

Exacto.

2:40

El objetivo no es que el alumno se aprenda de memoria las respuestas del profesor.

2:44

El objetivo es que el profesor aprenda de memoria las respuestas del profesor.

2:45

El objetivo es que el profesor le enseñe su forma de pensar, su intuición.

2:49

Me viene a la mente la analogía del chef que usan las fuentes.

2:53

Un chef experto no sólo le da la receta a su aprendiz.

2:56

No, claro.

2:57

Le enseña a oler los ingredientes, a sentir la textura de la masa.

3:01

Le explica por qué añade una pizca de sal justo en ese momento y no en otro.

3:06

Le transmite el porqué de las cosas.

3:08

Has dado en el clavo.

3:10

Y esa transmisión de la intuición es la clave.

3:13

Porque el motivo para hacer esto es la pura y dura eficiencia.

3:16

Los modelos grandes son carísimos.

3:19

Carísimos y lentos.

3:20

Muy lentos.

3:21

Me recuerda cuando usas una de esas apps de IA en el móvil que tardan una eternidad en generar una imagen.

3:27

Totalmente.

3:28

Supongo que la destilación intenta solucionar eso a gran escala, ¿no?

3:31

Poder tener esa potencia sin la espera.

3:33

Exacto.

3:34

La destilación permite crear modelos más pequeños que se pueden ejecutar en hardware menos potente, como un teléfono,

3:41

pero conservando gran parte de la sabiduría del modelo grande.

3:44

Y aquí es importante la distinción que hacen las fuentes, que no es simplemente compresión de modelos.

3:49

No, no lo es.

3:50

No estamos cogiendo el modelo grande y comprimiéndolo como si fuera un archivo zip.

3:55

Para nada.

3:56

Estamos entrenando un modelo completamente nuevo y distinto para que aprenda del grande.

4:01

Es un proceso de enseñanza, no de compresión.

4:04

Es una diferencia fundamental.

4:06

Vale.

4:07

La idea está clara.

4:08

Pero aquí viene la pregunta del Millén.

4:10

¿Cómo se transfiere algo tan etéreo como la intuición de una máquina a otra?

4:15

Pues aquí es donde el paper de Hinton de 2015, que es la referencia clave en este campo, dio un golpe de genialidad.

4:22

El truco está en lo que llaman las salidas suaves.

4:25

¿Salidas suaves?

4:26

A ver, explícame eso.

4:28

Un modelo normal, si le enseño la foto de mi perro, me dirá con un 99% de seguridad, esto es un perro.

4:35

Una respuesta dura.

4:37

Exacto.

4:38

Pero el modelo profesor no es así.

4:39

El modelo profesor, aplicando un truco matemático llamado temperatura, puede dar una respuesta con muchos más matices.

4:46

En lugar de esa certeza casi absoluta, podría decir…

4:49

Algo como…

4:50

Estoy un 70% seguro de que es un perro.

4:53

Pero ojo, porque tiene un 20% de rasgos que me recuerdan a un lobo y quizá un 10% que podrían ser de un zorro.

5:00

Ah, vale.

5:01

Ya lo veo.

5:02

No solo le da la respuesta correcta.

5:04

Le está diciendo al alumno…

5:06

Mira, la respuesta es perro.

5:08

Pero que sepas que lobo y zorro son conceptos relacionados.

5:11

Son posibilidades remotas, pero no absurdas.

5:14

Le está dando todo un mapa de relaciones semánticas.

5:17

Y ese mapa es oro puro para el aprendizaje.

5:20

El alumno no solo aprende la etiqueta correcta, sino que absorbe la capacidad de generalización del profesor.

5:26

Aprende las sutilezas.

5:28

O sea, el objetivo no es que memorice la respuesta, sino que aprenda el razonamiento del profesor.

5:33

Su razonamiento, incluidas sus dudas, por así decirlo.

5:37

Aprende que cosas son similares, aunque no sean la respuesta correcta.

5:41

Y eso es lo que le da la verdadera flexibilidad.

5:43

Fascinante.

5:44

Y aunque suene a algo muy de ahora, las fuentes nos recuerdan que la idea de hacer las redes neuronales más eficientes viene de muy lejos.

5:52

Sí.

5:53

Los primeros intentos, dicen, son de los años 60, con técnicas de poda, de redes.

5:58

La analogía era la de un jardinero, ¿no?

6:01

Entranabas una red y luego podabas las conexiones menos útiles.

6:05

Eso es.

6:06

Y de la jardinería, pasamos a la neurocirugía.

6:09

Porque en 1989, Jan LeCun, uno de los grandes, propuso un algoritmo con un nombre que es sencillamente genial.

6:16

Optimal Brain Damage.

6:17

Daño cerebral óptimo.

6:19

Un nombre espectacular.

6:21

Totalmente.

6:22

Y la idea era muy elegante.

6:24

En lugar de podar al azar, el algoritmo identificaba matemáticamente las conexiones menos importantes y las eliminaba.

6:31

Como un cirujano que extirpa tejido no esencial.

6:34

Y de ahí, el siguiente salto conceptual fue crucial.

6:37

Sí.

6:38

Si conectamos esto con el panorama general, vemos un cambio de paradigma.

6:42

En los años 90, gente como Jürgen Schmidhuber ya estaba trabajando con configuraciones de redes profesor-alumno.

6:50

Se pasó de arreglar una red a…

6:52

A usar activamente una red para enseñar a otra desde cero.

6:56

Ahí está el cambio de mentalidad.

6:58

No es optimizar lo que tienes, es usarlo para crear algo nuevo y mejor adaptado.

7:03

Correcto.

7:04

El término compresión de modelos ya se usó en 2006.

7:08

Pero fue el paper de Geoffrey Hinton y su equipo en 2015 el que realmente popularizó y formalizó lo que hoy llamamos destilación de conocimiento.

7:17

Muy bien.

7:18

La historia nos deja en 2015.

7:20

Pero ahora estamos en la era de los GPT-4 y compañía.

7:24

¿Qué significa todo esto para los gigantescos modelos de lenguaje?

7:27

Y aquí entra nuestro paper de 2025.

7:30

Aquí es donde el problema, como siempre…

7:32

Es la escala.

7:34

Una escala que marea.

7:35

Totalmente.

7:36

El vocabulario de un gran modelo de lenguaje puede tener decenas de miles de palabras.

7:43

A veces, cientos de miles.

7:45

Recordar esa respuesta suave del profesor para cada una de esas cien mil palabras, para cada ejemplo, es computacionalmente inviable.

7:55

Es un cuello de botella.

7:57

Tienes una idea genial, pero no la puedes aplicar donde más la necesitas porque es demasiado cara.

8:02

¿Cómo se intentó solucionar esto?

8:04

Pues el enfoque más obvio, que el propio paper llama ingenuo, es quedarse solo con las probabilidades más altas, el llamado Top K.

8:12

A ver, o sea, en lugar de mirar las cien mil palabras, te quedas solo con, digamos, las cincuenta más probables.

8:19

Exacto.

8:20

Parece lógico, ¿no?

8:21

Parece una buena aproximación.

8:23

Pero los autores, Anshman y su equipo, demuestran que esto tiene dos problemas muy graves.

8:28

El primero es que crea una estimación sesgada.

8:30

Y eso lleva a una mala calibración.

8:32

Murento, ¿quieres decir que el modelo se vuelve demasiado seguro de sí mismo?

8:37

Sí.

8:38

Yo pensaba que la confianza en la respuesta era algo bueno.

8:41

¿Por qué es un problema?

8:43

Es una pregunta excelente.

8:44

Porque es contraintuitivo.

8:46

El problema es que el modelo pierde la capacidad de dudar.

8:49

Se vuelve un sabelotodo.

8:51

Te dice, estoy cien por ciento seguro cuando su confianza real debería ser del sesenta.

8:56

Ya.

8:57

Y esa sobreconfianza es peligrosísima.

8:59

Imagina un modelo de diagnóstico médico que está ciegamente seguro de un diagnóstico erróneo.

9:04

Vale.

9:05

Entendido.

9:06

Es un exceso de confianza tóxico.

9:09

¿Y cuál era el segundo problema del método TOPK?

9:12

El segundo problema es que se pierde información crucial de lo que llaman la cola de la distribución.

9:18

Te refieres a las palabras con probabilidad bajísima.

9:21

Justo.

9:22

Esas miles de palabras que parecen basurar individualmente no valen nada.

9:26

Pero en conjunto contienen señales de aprendizaje.

9:28

Tienen señales de aprendizaje valiosísimas sobre lo que el modelo considera imposible o muy improbable.

9:34

¿Es como aprender tan bien lo que no se debe hacer?

9:36

Exacto.

9:37

Y si tiras esa información, el aprendizaje se empobrece.

9:40

El dilema era, o un aprendizaje pobre y sesgado, o un coste inasumible.

9:46

Parecía un callejón sin salida.

9:48

Y es justo ahí donde los autores proponen su solución, que parece casi mágica.

9:52

Radon Sampling Knowledge Distillation.

9:55

Destilación por muestreo aleatorio.

9:57

La analogía que usan es brillante.

9:59

El método TOPK es como intentar entender la opinión de un país escuchando solo a las 50 personas que más gritan en una manifestación.

10:07

Tendrás una visión muy intensa, pero completamente sesgada.

10:10

Totalmente.

10:11

Mientras que lo que ellos proponen es el equivalente a una encuesta electoral rigurosa.

10:16

En lugar de los más ruidosos, toman una muestra aleatoria pero estadísticamente representativa.

10:21

Y con unas pocas entrevistas bien elegidas, obtienes una idea muy precisa de lo que opina toda la multitud.

10:27

Justo.

10:28

Pasas de un sondeo de opinión sesgado a uno científicamente robusto.

10:32

Y la base matemática de esto es el muestreo por importancia.

10:36

¿Y cómo funciona? A grandes rasgos.

10:38

Pues, a ver, es una técnica que permite obtener una estimación sin sesgos de una distribución completa usando muy, muy pocas muestras.

10:46

El resultado es que el alumno aprende de una forma mucho más fiel al razonamiento completo del profesor.

10:52

Capturando tanto las respuestas probables como la información de la cola larga.

10:56

Exactamente.

10:58

Necesitar miles de tokens a necesitar solo una docena de muestras.

11:01

¿Doce tokens? Es una locura.

11:04

Es que, para que nos hagamos una idea, es como intentar entender la opinión de un país encuestando solo a doce personas,

11:10

pero elegidas de una forma tan inteligente que el resultado es casi perfecto. Eso es lo que lo hace viable.

11:17

Y todo esto, dicen, con un coste computacional mínimo. Menos de un 10% de tiempo extra.

11:23

Esto es lo que, por primera vez, hace que la destilación sea más fácil.

11:26

Y que la solución para el preentrenamiento de LLMs sea una opción realista.

11:30

Y los resultados de su evaluación lo confirman.

11:33

El método no solo es eficiente, sino que mejora la calibración del modelo alumno, evitando esa sobreconfianza.

11:39

Y funciona en modelos de distintos tamaños, de 300 millones a 3.000 millones de parámetros.

11:46

Entonces, si lo resumimos, me quedo con dos ideas.

11:49

La primera, que enseñar a una IA no es solo darle las respuestas correctas, sino enseñarle a dudar correctamente.

11:55

Me gusta esa forma de verlo.

11:57

Y la segunda, que gracias a métodos como este, ahora podemos hacerlo de forma tan eficiente que podría cambiar el modelo económico del desarrollo de IA.

12:05

Totalmente. Podríamos pasar de un mundo donde todos intentan construir profesores gigantes y carísimos,

12:12

a un mundo con unos pocos profesores fundacionales y millones de alumnos baratos, eficientes e hiperespecializados.

12:19

Y el impacto de esto en el día a día puede ser enorme.

12:22

Sin duda. Esta investigación es una pieza clara.

12:25

Una pieza clave para la democratización real de la IA.

12:29

Permite empaquetar la potencia de modelos gigantescos en formatos mucho más pequeños.

12:34

Para que funcionen en nuestros dispositivos.

12:36

Exacto. En un teléfono, en un portátil, abriendo la puerta a traductores en tiempo real realmente potentes en tu móvil,

12:43

o a herramientas de diagnóstico sofisticadas en clínicas rurales sin conexión a la nube.

12:48

Antes de terminar, tenemos un pequeño anuncio sobre nuestra programación.

12:53

Como hemos notado, la complejidad de estos temas que tratamos requiere un análisis cada vez más profundo.

12:59

Y para mantener la alta calidad que nos exigimos en cada entrega, pues hemos decidido ajustar nuestro calendario.

13:05

Sencillamente, necesitamos más tiempo para investigar y preparar cada análisis a fondo.

13:09

Por eso, a partir de la próxima semana, dejaremos de tener una frecuencia diaria.

13:14

Publicaremos tres análisis por semana. Los lunes, los miércoles y los viernes.

13:20

Esperamos que este nuevo ritmo nos permita ofrecerles un contenido aún mejor y más pulido.

13:25

Y ahora sí, para despedirnos, dejamos una reflexión que sale del paper de hoy.

13:30

El artículo se centra en hacer eficiente al modelo alumno. Pero esto plantea una pregunta interesante.

13:36

A ver.

13:38

Si nos volvemos extremadamente buenos destilando conocimiento, ¿podría el futuro de la IA centrarse menos en construir profesores cada vez más grandes

13:47

y más en crear incontables alumnos hiperspecializados?

13:50

¿Todos destilados a partir de un único y colosal modelo fundacional?

13:55

¿Cómo sería un mundo con un solo gran profesor y millones de alumnos expertos en tareas concretas?

14:00

Ahí queda la pregunta. Gracias por acompañarnos en este análisis.

14:05

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:20

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E032_La destilación del conocimiento en los modelos de lenguaje grandes (LLM)

Episode description

Persons