E077_Afina en local tu propia IA con Unsloth Studio
Ep. 77

E077_Afina en local tu propia IA con Unsloth Studio

Episode description

Descripción del Episodio

En este episodio de BIMPRAXIS, exploramos cómo la inteligencia artificial puede ser afinada en casa utilizando Sloth Studio y una tarjeta gráfica comercial. Se presenta un caso de estudio donde se transforma un modelo de lenguaje pequeño en uno capaz de razonamiento analítico profundo a través de la técnica de destilación de conocimientos. Esto se logra mediante la creación de datos sintéticos y el uso de herramientas visuales como Ansloth Studio, permitiendo a los usuarios crear sus propios modelos de IA personalizados de manera rápida y eficiente. El episodio destaca la democratización de la inteligencia artificial y su potencial para permitir que comunidades enteras creen sus propias recetas de datos sintéticos, lo que podría llevar a la creación de millones de modelos ultraespecializados forjados por expertos de cada sector.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:29

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:41

Hoy os traemos cómo afinar tu propia inteligencia

0:45

artificial en casa con un Sloth Studio y

0:48

una tarjeta gráfica comercial.

0:50

Hola, ¿qué tal?

0:51

A ver, fíjate en esto.

0:53

Hasta hace nada, un par de años como

0:55

mucho, si alguien quería alterar el código fundamental

0:58

de una inteligencia artificial, la imagen mental era

1:01

inevitable, ¿no?

1:02

Totalmente.

1:03

Necesitabas, o sea, el presupuesto de un país

1:05

pequeño.

1:06

Sí, sí, y un centro de datos enorme

1:08

en Islandia o algo así.

1:09

Exacto, un centro de datos en Islandia.

1:11

Un centro de datos en Islandia refrigerado bajo

1:12

cero y un equipo de 50 ingenieros escribiendo

1:15

un código incomprensible.

1:17

Una locura, vamos.

1:18

Pero la realidad de hoy, y esto es

1:20

lo que vamos a desgranar en este análisis,

1:22

es otra completamente distinta.

1:24

Resulta que el ordenador que mucha gente tiene

1:26

en su salón, pues para jugar a videojuegos,

1:29

tiene ahora mismo la potencia suficiente para reescribir

1:32

la mente de un modelo de lenguaje.

1:33

Y ojo, en exactamente un minuto.

1:36

Eso es, en un minuto.

1:38

Por eso hoy tenemos sobre la mesa un

1:40

material súper interesante.

1:41

Un material que desglosa cómo una serie de

1:42

herramientas gratuitas están democratizando este proceso por completo.

1:47

Concretamente usando el proyecto de código abierto Ansloth

1:50

y, bueno, su nueva interfaz visual, el Ansloth

1:53

Studio.

1:53

Es que es un cambio de paradigma monumental.

1:56

O sea, si conectamos esto con la perspectiva

1:59

general, lo que este material nos está mostrando

2:02

no es sólo una nueva herramienta de software,

2:05

sin más.

2:06

Ya.

2:06

Es literalmente el colapso de la mayor barrera

2:09

de entrada que existía en el desarrollo.

2:11

La barrera del hardware y de la complejidad,

2:15

¿verdad?

2:15

Tal cual.

2:15

La complejidad técnica y el altísimo coste computacional.

2:19

Porque, históricamente, los usuarios de a pie éramos

2:23

meros consumidores.

2:25

Consumidores de modelos que empresas gigantes habían entrenado

2:29

por nosotros con esos presupuestos millonarios.

2:32

Te daban la caja negra y tú a

2:33

usarla.

2:34

Exactamente.

2:34

Pero lo que Ansloth plantea con este nuevo

2:37

flujo de trabajo es, fíjate, darnos las llaves

2:40

del taller.

2:41

Ya no ejecutamos modelos estáticos.

2:43

Ahora los modificamos y les enseñamos comportamientos nuevos

2:47

de forma local, en nuestra propia casa.

2:49

A ver, vamos a desgranar esto porque el

2:51

salto me parece enorme.

2:52

Para quienes ya siguen el tema, el proyecto

2:54

Ansloth ya era muy respetado en la comunidad

2:57

de código abierto, ¿no?

2:58

Sí, muchísimo.

2:59

Porque era súper eficiente a la hora de

3:00

procesar IA.

3:01

Pero la pieza clava que analizan las fuentes

3:03

de hoy es un Sloth Studio.

3:05

Eso es, la versión estudio.

3:07

Y la gran revolución, por lo que entiendo,

3:10

no es que añadan más algoritmos.

3:11

Matemáticos hipercomplejos y ocultos, sino que aporta una

3:15

capa visual, una interfaz gráfica.

3:17

Sí, es como si nos dijeran que ya

3:19

no hace falta alquilar un laboratorio corporativo para

3:21

experimentar, sino que podemos montar, no sé, un

3:24

reactor de IA en el ordenador que usamos

3:26

para jugar y encima sin tener que picar

3:28

líneas y líneas de código en una terminal

3:30

oscura, que es lo que echaba para atrás

3:32

a mucha gente.

3:33

Hombre, claro, es que la terminal impone y

3:36

lo más impactante de este análisis es que

3:38

exige unos requisitos de hardware que a ver.

3:41

Ya están en muchísimos ovares.

3:42

Sí, las famosas tarjetas gráficas comerciales.

3:45

Claro, se menciona que todo este flujo funciona

3:48

sobre tarjetas gráficas GeForce RTX de consumo.

3:54

El único requisito fuerte que señalan las fuentes

3:56

es tener al menos 16 GB de memoria

3:59

VRAM, memoria de vídeo, para afilar un modelo

4:02

pequeño.

4:03

Que a ver, 16 GB de VRAM es

4:05

una cifra crítica.

4:06

Sí, es la frontera.

4:08

Porque hacen no tanto tiempo hablar de esa

4:09

cantidad de memoria de vídeo determinada.

4:11

Lo que era dedicada era terreno exclusivo de

4:13

estaciones de trabajo profesionales.

4:15

De servidores, prácticamente.

4:16

Exacto.

4:17

Pero hoy en día es una especificación estándar

4:20

en la gama media -alta que usan diseñadores

4:22

gráficos, editores de vídeo o los aficionados al

4:26

gaming.

4:26

El hardware ya está distribuido, está en millones

4:29

de casas.

4:30

El cuello de botella era el conocimiento para

4:32

aprovechar ese hardware.

4:33

Tal cual.

4:34

Y eso es exactamente lo que viene a

4:35

resolver esta nueva generación de interfaces visuales como

4:38

Unslot Studio.

4:39

Pero claro, aquí es donde se pone realmente

4:42

interesante la cosa.

4:43

Una vez que tenemos la máquina y el

4:45

programa instalados, la pregunta es ¿qué construimos exactamente?

4:50

Porque el análisis de hoy nos propone un

4:52

objetivo súper concreto.

4:53

Tomar un modelo de lenguaje pequeñito, que por

4:56

defecto te da respuestas cortas, directas, un poco

4:59

telegráficas, y transformarlo en uno que posea un

5:01

razonamiento analítico profundo.

5:04

Que explique sus motivos paso a paso.

5:06

Exacto.

5:07

Y para lograr esto, el material de hoy

5:09

es un modelo de lenguaje pequeño.

5:09

Y detalla un concepto que me parece fascinante.

5:11

El flujo de trabajo de destilación, o Distillation

5:14

Workflow.

5:15

Ahí es que la destilación de conocimientos es

5:18

uno de los conceptos más elegantes que hay

5:19

en el aprendizaje automático actual.

5:21

A ver, explícanos cómo funciona esto de la

5:24

destilación.

5:24

Pues mira, en este escenario tenemos básicamente dos

5:27

entidades.

5:28

Por un lado, tenemos al modelo alumno.

5:30

El aprendiz.

5:31

Exacto.

5:32

Que en este caso práctico es el modelo

5:34

llamado Dos Instruct.

5:35

Vale.

5:36

Es un modelo ligero, rápido.

5:39

Ideal para ejecutarse en casa sin que el

5:41

ordenador salga ardiendo.

5:42

Pero como bien decías, es un modelo que

5:44

va directo al grano.

5:45

Te da la respuesta y ya está, sin

5:47

mostrar su proceso mental.

5:49

Y por otro lado, tenemos al modelo profesor.

5:52

Que este es el modelo gordo, ¿no?

5:54

Claro, es un modelo mucho más complejo, grande

5:57

y capaz.

5:58

En el documento realizado mencionan el Nemotron 3

6:01

Nano de NVIDIA, que se caracteriza precisamente por

6:03

tener una gran capacidad de razonamiento lógico.

6:06

Vale, entiendo.

6:07

Entonces, el objetivo del proceso de destilación...

6:09

...de destilación es, en esencia, transferir esa metodología

6:12

de pensamiento rigurosa del profesor al alumno.

6:15

Y aquí, oye, me surge una duda absolutamente

6:17

pragmática.

6:18

Porque seguro que más de uno lo está

6:19

pensando.

6:20

A ver, dispara.

6:21

Si ya tenemos un modelo grande, este profesor

6:23

que comentas, que es buenísimo, que es súper

6:26

inteligente y que ya sabe razonar paso a

6:29

paso de forma natural.

6:30

Sí.

6:30

Pues, a ver, ¿por qué no usamos simplemente

6:33

ese modelo grande y nos ahorramos todo el

6:35

trabajo?

6:35

Claro.

6:36

O sea, ¿por qué tomarnos la tremenda molestia?

6:38

Desesperación.

6:39

Sentar a un modelo gigante a enseñarle trucos

6:41

a uno pequeño.

6:42

Parece que estamos dando un rodeo innecesario, la

6:45

verdad.

6:45

Es la pregunta fundamental del millón.

6:47

Y la respuesta, en una palabra, es eficiencia.

6:51

Eficiencia operativa.

6:53

Vale.

6:54

Un modelo grande, como nuestro profesor Nemotron, es

6:57

brillante, ¿de acuerdo?

6:59

Pero computacionalmente es obeso.

7:02

Obeso.

7:03

Me gusta la palabra.

7:04

Es que lo es.

7:05

Consume una cantidad masiva de recursos, de energía...

7:09

De energía y de memoria, simplemente para generar

7:11

una sola palabra.

7:12

Claro.

7:13

Si intentamos usar ese modelo gigantesco de forma

7:16

constante para las tareas cotidianas en un equipo

7:19

local, el sistema colapsaría.

7:21

O, en el mejor de los casos, sería

7:23

desesperantemente lento.

7:24

Te puedes ir a tomar un café entre

7:26

pregunta y pregunta.

7:28

Tal cual.

7:29

Sin embargo, si usamos ese modelo grande una

7:33

sola vez...

7:34

Solo una vez.

7:34

Para generar ejemplos perfectos de razonamiento.

7:37

Ah, vale, vale.

7:37

Y luego, destilarlo.

7:39

Si usamos ese estilo, esa forma de pensar

7:41

en el modelo pequeño, la ecuación cambia por

7:44

completo.

7:45

Porque obtenemos un alumno que imita esa calidad

7:47

de razonamiento, pero manteniendo su arquitectura súper ligera.

7:50

Exactamente.

7:51

Conseguimos respuestas profundas a una velocidad vertiginosa y

7:55

consumiendo poquísima energía en nuestro día a día.

7:58

Es una inversión inicial a cambio de un

8:00

rendimiento sostenido espectacular.

8:02

Vale.

8:03

Ahora entiendo el esquema perfectamente.

8:05

Básicamente, usamos al erudito para que escriba unos

8:08

apuntes perfectos.

8:10

Y luego, el estudiante avispado se aprende la

8:13

estructura de sus apuntes para poder aplicarla rapidísimo

8:16

en los exámenes, sin tener que cargar con

8:18

toda la enciclopedia en la mochila.

8:20

Esa analogía es perfecta.

8:21

Pero claro, para que el estudiante aprenda, necesitamos

8:24

fabricar ese libro de texto primero, esos apuntes.

8:28

Y el material nos lleva a una fase

8:29

que llaman creación de datos sintéticos, que es

8:32

donde se cocina todo esto.

8:34

La pestaña de recetas o recipes en Anxiloth

8:37

Studio.

8:38

Exacto.

8:39

Porque olvidándonos un poco de los botones y

8:41

los menús, lo que realmente se hace aquí

8:43

es diseñar una cadena de montaje de información.

8:45

Una tubería de datos, un pipeline.

8:48

Todo empieza con unos cimientos sólidos.

8:50

El usuario no parte de cero.

8:52

Menos mal, porque inventarse mil preguntas con sus

8:55

respuestas tiene tela.

8:56

Ya te digo.

8:57

El proceso parte de un conjunto de datos

9:00

que ya existe, llamado Anxiloth Alpaca Clean.

9:04

Alpaca Clean.

9:05

Sí, que es un estándar en la industria.

9:09

Está alojado en la plataforma Hugging Face y

9:11

contiene, pues, miles de ejemplos de instrucciones típicas

9:15

de usuarios y sus correspondientes respuestas.

9:18

El formato clásico de pregunta y respuesta de

9:20

toda la vida.

9:21

Eso es.

9:21

Pero claro, el análisis nos advierte de un

9:24

problema.

9:25

Esas respuestas del Alpaca Clean son cortas, son

9:29

directas.

9:29

Y nosotros, precisamente, queremos enseñar a argumentar.

9:33

Claro, no nos sirven tal cual.

9:35

Entonces, lo que nos explican es que se

9:37

coge ese conjunto de datos… …y se toma

9:41

una decisión bastante radical.

9:42

Se elimina por completo la columna de las

9:45

respuestas originales.

9:46

Se borran.

9:47

De cuajo.

9:48

Así, sin más.

9:49

Y en ese hueco que queda libre, conectan

9:52

al modelo profesor para que él redacte las

9:55

respuestas nuevas.

9:56

Exactamente.

9:57

Y para que esa conexión funcione y sea

9:59

automática, el flujo de trabajo utiliza lo que

10:02

se llaman plantillas Jinja, J -I -N -J

10:06

-A, que actúan como el tejido… …el tejido

10:09

conectivo de todo este tinglado.

10:11

A ver, explícanos un poco qué es esto

10:13

de Jinja, porque suena a magia negra de

10:15

programación.

10:16

Qué va, qué va.

10:17

Las plantillas Jinja son cruciales aquí, pero no

10:20

son ninguna caja negra.

10:21

Son simplemente un motor de plantillas de texto.

10:25

¿Vale?

10:25

O sea, rellenar huecos.

10:27

Exacto.

10:28

Lo que hacen es tomar variables dinámicas de

10:31

una base de datos.

10:32

Por ejemplo, en nuestro caso, la pregunta original

10:34

del usuario que sacamos del conjunto Alpaca.

10:37

Sí.

10:38

Y la inserta… …están dentro de una estructura

10:40

de texto predefinida.

10:41

Un prompt gigante que se envía automáticamente al

10:44

modelo profesor.

10:45

Ah, vale.

10:46

O sea que el sistema no tiene que

10:48

estar escribiendo manualmente las mil consultas una por

10:51

una.

10:51

Claro que no.

10:52

Las genera programáticamente gracias a la plantilla.

10:55

Profesor, para que rellene los huecos, hay un

10:58

detalle técnico en las fuentes que me parece

11:00

la clave de bóveda de todo este asunto.

11:02

El modo pensamiento.

11:05

Exacto.

11:05

El Thinking Mode.

11:07

No le piden simplemente al profesor que responda

11:09

a la pregunta.

11:10

Van a la configuración y le activan este

11:13

parámetro específico.

11:14

Y le dan muchísimo margen, sí.

11:17

Sí.

11:17

Le dan un límite de más de 2

11:19

.000 tokens, que es un montón de texto,

11:21

para que tenga espacio para explayarse a gusto.

11:24

Es que ese modo pensamiento es el núcleo

11:26

absoluto de la destilación.

11:28

Al activarlo, estamos forzando al modelo profesor a

11:32

que, por favor, no entregue la solución de

11:34

forma inmediata.

11:35

¿Le cortamos el atajo?

11:37

Le obligas a generar lo que en el

11:38

mundillo se conoce como una traza de razonamiento,

11:41

o Reasoning Trace.

11:43

Que es como pensar en voz alta.

11:45

Exacto.

11:45

El modelo tiene que imprimir en texto todo

11:48

su proceso deductivo.

11:49

O sea, qué variables está considerando en el

11:51

problema, qué posibles soluciones existen… ¿Por qué descarta

11:55

una opción y se queda con otra?

11:57

Eso es.

11:57

Esa disección paso a paso es el verdadero

12:01

conocimiento de oro puro que queremos que el

12:03

modelo alumno absorba.

12:05

Pero, a ver… Espera un momento.

12:07

Dime.

12:08

Tengo que hacer un poco de abogado del

12:10

diablo en este punto.

12:11

Porque al leer las fuentes, esto me plantea

12:13

una paradoja tremenda.

12:15

A ver, ¿de ese te ha ocurrido?

12:16

Estamos usando una inteligencia artificial para que se

12:19

invente el material de estudio que luego va

12:21

a utilizar otra inteligencia artificial para aprender.

12:24

Sí, datos sintéticos.

12:25

¿Pero no corremos el riesgo de crear una

12:27

cámara de eco absoluta?

12:29

O sea, si el modelo profesor alucina un

12:31

dato o tiene una lógica defectuosa en algún

12:34

tema concreto… Ajá.

12:35

…el modelo alumno… …va a asimilar ese error

12:39

como una verdad absoluta y lo va a

12:42

replicar.

12:43

No estamos retroalimentando los fallos del propio sistema

12:46

y haciéndolos más grandes.

12:48

A ver, es una objeción súper válida, ¿eh?

12:50

De hecho, es un debate central ahora mismo

12:52

en toda la investigación sobre datos sintéticos.

12:55

Es que suena un poco a teléfonos cacharrado.

12:57

Lo sé, pero hay que entender con muchísima

12:59

precisión qué estamos extrayendo exactamente del modelo profesor,

13:04

en este flujo en concreto.

13:05

Vale.

13:07

Fíjate que no le estamos pidiendo que invente

13:09

hechos históricos ni que descubra nuevas leyes de

13:11

la física partiendo de cero, ¿eh?

13:13

Ya, le damos la pregunta a nosotros.

13:15

Exacto.

13:16

Estamos usando un conjunto de datos base, el

13:18

alpaca clean, que ya contiene la premisa inicial

13:21

real.

13:21

Lo que le pedimos al modelo profesor no

13:23

es que invente datos… Sino que… …mino hacia

13:26

una respuesta fundamentada.

13:28

O sea, estamos destilando la estructura del pensamiento

13:31

analítico, la sintaxis de la lógica.

13:33

No estamos inventando verdades nuevas.

13:35

Ah, vale.

13:37

O sea, ¿le estamos enseñando a justificar?

13:38

¿No le estamos dando una enciclopedia nueva?

13:41

Tal cual.

13:41

Piénsalo así.

13:42

Si tuviéramos que parar a expertos humanos para

13:45

que redactaran a mano mil trazas de razonamiento

13:48

superdetalladas, paso por paso… Madre mía, tardaríamos meses.

13:53

Meses, y costaría una fortuna.

13:55

Pero el modelo grande lo hace en minutos,

13:57

estructurando la lógica de una forma superconsistente.

14:01

Visto así, la verdad es que tiene todo

14:03

el sentido del mundo.

14:04

Bien.

14:04

Pues una vez que el sistema termina de

14:06

procesar la lógica de una forma superconsistente… …y

14:06

comenzamos a procesar todo esto en la pestaña

14:08

de recetas, nos encontramos con mil ejemplos sintéticos

14:11

perfectos.

14:12

Mil pares de instrucción y razonamiento.

14:14

Mil problemas donde se muestra la pregunta, todo

14:17

el razonamiento interno entre unas etiquetas especiales de

14:20

pensamiento y la conclusión final.

14:23

Ya tenemos los apuntes listos.

14:25

Tenemos los apuntes.

14:26

Pero ahora viene el reto físico.

14:28

¿Cómo embutimos toda esta información gigantesca en el

14:31

cerebro de un modelo de lenguaje que ya

14:33

de por sí pesa gigabytes?

14:34

Ajá.

14:35

¿Y todo esto utilizando únicamente la memoria de

14:37

la tarjeta gráfica del ordenador de casa que

14:39

decíamos que eran 16 gigas?

14:41

Pues aquí es donde la ingeniería de software

14:42

brilla con luz propia, de verdad.

14:45

¿Por qué no explota la tarjeta?

14:46

No, no explota gracias a una técnica de

14:48

entrenamiento maravillosa llamada Q -Lora.

14:51

Q -Lora.

14:52

Con Q y luego Lora.

14:54

Eso es.

14:55

A ver, si tuviéramos que reescribir todos los

14:57

pesos neuronales del modelo base, o sea, los

14:59

miles de millones de parámetros matemáticos que lo

15:02

componen, para enseñarle esto nuevo… …necesitaríamos… …necesitaríamos el

15:05

centro de datos de Islandia que decíamos al

15:07

principio.

15:09

Exactamente.

15:10

Necesitaríamos granjas enteras de servidores.

15:13

Pero Q -Lora evita esto por completo.

15:17

¿Cómo lo hace?

15:18

Las fuentes lo explican muy bien.

15:19

Sí.

15:20

La parte Lora, que son unas siglas en

15:22

inglés para adaptación de bajo rango… Sí.

15:25

…consiste básicamente en congelar el cerebro original del

15:30

modelo.

15:30

No lo tocamos.

15:31

Se queda de solo lectura.

15:33

Eso es.

15:33

Y en su lugar, le añadimos unas pequeñas

15:36

matrices matemáticas externas.

15:39

Oye, me encantó la analogía que hacían al

15:41

explicar esto.

15:42

Es como si en lugar de tener que

15:43

reimprimir un libro entero en la imprenta para

15:45

corregir un concepto o añadir un capítulo… Exacto.

15:49

…simplemente cogemos el libro original y le vamos

15:51

pegando unas notas adhesivas en los márgenes con

15:53

la información nueva.

15:54

Es la mejor analogía posible.

15:57

Las notas adhesivas son el Lora.

15:59

Pero espera.

16:00

La letra Q de Q -Lora.

16:02

Añade otra capa más a este asunto, ¿verdad?

16:05

Sí.

16:06

Añade la capa de la compresión extrema.

16:09

Porque no solo estamos usando esas notas adhesivas

16:12

para no estropear el libro original.

16:14

Claro.

16:15

La Q representa la cuantización.

16:18

Siguiendo con tu analogía del libro.

16:20

No solo usamos notas adhesivas para ahorrar papel

16:24

y tinta, sino que además, en esas notas,

16:27

escribimos utilizando una taquigrafía matemática ultracomprimida.

16:32

Ah, vale.

16:33

O sea, letra súper pequeñita.

16:35

Matemáticamente hablando, sí.

16:37

Reducimos la precisión numérica de la información.

16:40

Pasamos de usar números grandísimos de coma flotante

16:43

de 16 bits a formatos mucho más pequeños,

16:46

como de 4 bits.

16:48

Y eso reduce drásticamente el espacio que ocupan.

16:51

Reduce muchísimo la memoria VRAM necesaria.

16:54

Esta combinación de no tocar el modelo original

16:58

y, encima, comprimir a lo bestia las actualizaciones,

17:01

es lo que permite que todo el proceso

17:03

encaje mágicamente en esos 16 gigas de una

17:06

gráfica doméstica.

17:07

Es flipante.

17:08

Y esto nos lleva directamente a la pestaña

17:11

donde ocurre la magia.

17:12

La pestaña estudio.

17:13

Y a la configuración del entrenamiento en sí.

17:15

Los famosos hiperparámetros.

17:17

Sí.

17:17

El documento detalla unos valores muy específicos que

17:20

en la interfaz visual son botoncitos, pero que

17:22

si no se explican, la verdad es que

17:23

suenan a jerga incomprensible.

17:25

Totalmente.

17:26

Por ejemplo, configuran un parámetro que se llama

17:29

LoRaAlpha, y le ponen un valor de 32.

17:32

A ver, entendiendo que LoRa son esas notas

17:34

adhesivas de aprendizaje que decíamos, ¿qué función cumple

17:38

exactamente ese valor alfa de 32?

17:40

Pues mira, el parámetro LoRaAlpha actúa en términos

17:44

prácticos como un control de volumen, o un

17:48

factor de escala para el conocimiento nuevo.

17:50

Un control de volumen.

17:52

Sí.

17:52

A ver, si tú le pones un alfa

17:55

muy bajito, el modelo le va a hacer

17:57

muy poco caso a las notas adhesivas.

17:59

Va a seguir comportándose mayoritariamente como lo hacía

18:03

antes.

18:03

Como si la nota estuviera escrita muy flojito

18:05

y casi no la lee.

18:06

Exacto.

18:07

Pero al establecerlo en 32, que suele ser

18:10

el doble del rango habitual que se configura

18:12

en estas matrices matemáticas, Le estamos gritando, básicamente.

18:16

le estamos diciendo al modelo que le dé

18:17

una importancia supersignificativa a este nuevo estilo de

18:20

razonamiento.

18:21

Ah, claro.

18:22

Estamos forzando que la nueva estructura lógica tenga

18:24

un peso dominante sobre sus respuestas impulsivas originales,

18:28

para que no vaya directo al grano, que

18:30

es su instinto.

18:31

Entendido.

18:32

Y luego hay otro parámetro superclásico, la famosa

18:35

tasa de aprendizaje, el learning rate.

18:38

Sí.

18:38

Que lo configuran en 1 elevado a menos

18:40

4, el 1e4.

18:42

Esto, si lo bajamos a tierra para visualizarlo,

18:45

es básicamente la longitud de la zancada que

18:47

da el modelo mientras busca la respuesta correcta

18:50

en el entrenamiento.

18:50

Tal cual, la longitud del paso.

18:53

Durante el entrenamiento, el modelo hace predicciones y

18:56

se equivoca.

18:56

Se equivoca mucho al principio respecto a los

18:59

ejemplos perfectos que le hemos dado.

19:00

Lógico.

19:01

Pues la tasa de aprendizaje define con qué

19:04

agresividad corrige esos errores.

19:05

Si das un paso demasiado grande… Tropieza.

19:08

Bueno, sobrecorrige.

19:09

Se vuelve inestable y nunca consolida lo que

19:12

aprende.

19:12

Se pasa de frenada.

19:14

Ya.

19:14

¿Y si el paso es muy pequeñito?

19:16

Pues que el entrenamiento podría tardar semanas en

19:18

converger, porque va a pasito de tortuga.

19:20

Claro.

19:21

Entonces, el valor de 1e4 es un estándar.

19:24

Es un valor muy sólido.

19:26

Comprobado ya, empíricamente, para métodos como este, como

19:30

Qlorra.

19:31

Es el punto dulce.

19:33

Eso es.

19:33

Asegura que el modelo alumno asimile las trazas

19:36

de razonamiento de forma estable y a un

19:39

buen ritmo.

19:39

Vale.

19:40

Y para rematar esta receta de configuración, establecen

19:43

un temaño de lote, el batch size, de

19:45

10.

19:46

Y configuran 100 pasos de entrenamiento.

19:48

Que las matemáticas cuadran solas ahí.

19:51

Claro.

19:51

Hacemos la cuenta matemática básica de primaria.

19:53

10 ejemplos por lote, multiplicados por 100 pasos,

19:57

nos da exactamente los 1000 ejemplos sintéticos que

20:00

habíamos generado en la receta al principio.

20:02

Es decir, que el modelo se lee el

20:04

libro de texto completo una sola vez.

20:07

Es lo que en el mundillo se conoce

20:09

como hacer una época.

20:10

Una época entera.

20:11

Vale.

20:12

Y mientras esto ocurre, lo bueno de la

20:14

interfaz visual es que el usuario no está

20:16

mirando una terminal con letras verdes pasando a

20:19

toda velocidad.

20:19

No.

20:20

¿Tienes una gráfica visual?

20:22

Sí.

20:22

El sistema te dibuja una curva de pérdida,

20:25

el training loss, que según cuentan las fuentes,

20:28

va cayendo en picado.

20:29

Es que esa curva descendente es la confirmación

20:32

visual de que la transferencia de conocimiento está

20:35

funcionando.

20:36

Que está aprendiendo, vamos.

20:37

Claro.

20:38

La pérdida representa la diferencia entre lo que

20:41

el modelo predice y la respuesta perfecta de

20:44

nuestro conjunto de datos.

20:46

Ver cómo esa línea baja de forma constante

20:48

te está indicando que el alumno está comprendiendo

20:50

e interiorizando la estructura lógica.

20:52

Se está convirtiendo en un pensador analítico delante

20:55

de tus ojos.

20:56

Exacto.

20:57

Pero a ver, el hito más importante de

20:59

todo este proceso, lo que de verdad, de

21:02

verdad cambia las reglas del juego, es el

21:04

tiempo que tarda en dibujarse esa curva.

21:06

Ay, es que esa es la cifra que

21:08

deja a cualquiera sin palabras.

21:09

En el hardware que utilizan para esta demostración

21:12

de un Sloth Studio, todo esto dura un

21:14

minuto.

21:15

60 segundos de reloj.

21:17

Me estás diciendo que tardas más en ir

21:19

a la cocina a hacerte un café que

21:20

en cambiarle el cerebro a una inteligencia artificial.

21:22

Es que es literal.

21:23

El impacto que tiene esta cifra, este minuto,

21:27

en la forma en que trabajamos y desarrollamos

21:29

tecnología, es absolutamente colosal.

21:31

Es que lo cambia todo.

21:32

No es solo una cuestión de, ay, somos

21:34

muy impacientes y queremos las cosas ya.

21:36

Es que si tardas un minuto en entrenar

21:39

un modelo, el coste del error prácticamente desaparece

21:42

de la ecuación.

21:43

Totalmente.

21:43

Tú puedes plantear una hipótesis.

21:45

Preparas los datos visualmente.

21:47

Entrenas en un minuto.

21:48

Pruebas y, oye, que sale mal, que alucina

21:51

o lo que sea.

21:51

Pues no pasa nada.

21:52

Pues no pasa nada.

21:53

Cambias dos parámetros y lo vuelves a intentar

21:56

cinco minutos después.

21:57

Esta velocidad de iteración transforma por completo el

22:00

ciclo de investigación.

22:01

Has dado en la diana.

22:03

La reducción del tiempo de iteración es el

22:06

verdadero motor de cualquier innovación tecnológica.

22:08

Ajá.

22:09

Piensa que cuando entrenar un modelo requería alquilar

22:11

instancias en la nube que te costaban miles

22:13

de dólares… Y esperar semanas para ver si

22:16

funcionaba.

22:16

Claro.

22:17

El margen para la experimentación era nulo.

22:20

Te la jugabas a una carga.

22:21

Cierta.

22:21

Solo las grandes corporaciones con unos presupuestos ilimitados

22:24

podían permitirse fracasar.

22:26

Y tirar a la basura todo ese dinero

22:28

y tiempo.

22:28

Eso es.

22:29

Al comprimir ese ciclo a un minuto, en

22:31

un entorno local, en tu casa, y gratuito,

22:34

estamos permitiendo que desarrolladores independientes, estudiantes de universidad

22:38

o pequeñas startups… Prueben 50 ideas diferentes en

22:41

una sola tarde de domingo.

22:43

Exactamente.

22:44

La fricción para innovar se ha reducido literalmente

22:47

a cero.

22:47

Es flipante.

22:48

Y bueno, toda esta fricción reducida culmina en

22:51

el momento en el que la innovación se

22:51

vuelve más fácil.

22:51

Y es que el momento de la verdad

22:52

en Unslot Studio.

22:53

La evaluación empírica.

22:54

Porque, oye, la teoría matemática es impecable.

22:57

Nos ha quedado clarísimo.

22:58

Sí.

22:59

Sobre el papel, todo funciona.

23:01

Pero hay que ver cómo se comporta el

23:02

modelo en la práctica.

23:03

En el proceso descrito, una vez finalizado ese

23:06

minuto glorioso de entrenamiento, se van a la

23:08

pestaña de chat… Sí, cargan a este nuevo

23:11

alumno ya graduado.

23:12

Y le lanzan una consulta de lógica.

23:14

Es que el cambio de comportamiento ahí es

23:16

el test definitivo del éxito de la destilación.

23:19

Qué hacía antes y qué hace ahora.

23:21

Mira, antes del entrenamiento, si tú le hacías

23:23

una pregunta compleja de varios pasos, al modelo

23:26

base intentaba escupir la respuesta final casi de

23:29

forma instintiva.

23:30

Como un loro.

23:31

Sí.

23:31

Y a menudo equivocándose estrepitosamente en la lógica.

23:36

Pero tras aplicar nuestra receta de mil ejemplos…

23:40

¿Qué pasa?

23:40

El comportamiento se transforma radicalmente.

23:43

El modelo hace una pausa conceptual.

23:46

Empieza a escupir texto con etiquetas de pensamiento,

23:49

¿no?

23:50

Exacto.

23:50

Detalles.

23:51

Vaya explícitamente su tren de pensamiento.

23:54

Evalúa las premisas de la pregunta.

23:56

Descarta opciones que no tienen sentido.

23:58

Razona.

23:59

Razona.

24:00

Y sólo al final de esa larguísima cadena

24:03

deductiva proporciona la respuesta correcta.

24:05

Ha asimilado por completo la metodología del profesor.

24:08

Es la cristalización de todo el esfuerzo.

24:11

Y lo mejor de todo, y esto es

24:13

clave, es que este nuevo modelo supercapaz que

24:16

nos hemos fabricado no se queda secuestrado dentro

24:18

del programa de Unsloth.

24:20

No, no.

24:20

Tú eres dueño del archivo.

24:22

Claro.

24:23

El flujo de trabajo finaliza en la pestaña

24:25

Export, explicando cómo se exporta al mundo real.

24:28

Utilizan un estándar fantástico del código abierto llamado

24:33

llama .cpp.

24:35

L -L -A -M -A punto C -P

24:39

-P.

24:40

Sí.

24:40

Que sirve para empaquetar el modelo, manteniendo además

24:43

esa cuantización, esa compresión de las notas adhesivas

24:47

de la que hablábamos.

24:48

O sea, te genera un archivo comprimido listo

24:50

para usar.

24:50

La exportación es, de hecho, lo que convierte

24:53

un simple experimento de laboratorio en una herramienta

24:56

de producción real.

24:57

Claro.

24:58

Al empaquetarlo, en ese formato, ese modelo ya

25:01

es completamente autónomo.

25:02

Es un archivito que puedes integrar en una

25:05

aplicación propia.

25:06

Lo puedes subir a un servidor interno de

25:09

tu empresa para que lo usen tus empleados,

25:11

o simplemente compartirlo con la comunidad en Internet.

25:14

Demuestra que el objetivo de estas herramientas visuales

25:17

no es sólo hacer, digamos, investigación académica aburridas.

25:20

Sino la creación de utilidades prácticas y aplicables

25:23

en el mundo real, hechas por cualquiera.

25:25

Desde casa.

25:26

Es el empoderamiento absoluto del usuario frente a

25:29

la famosa caja negra de las grandes tecnológicas.

25:32

Herramientas visuales superintuitivas combinadas con métodos de compresión

25:36

matemáticos brillantes bajo el capó.

25:38

Nos han puesto directamente a los mandos.

25:41

Ya no somos pasajeros.

25:42

Ya no somos pasajeros esperando a ver que

25:45

IA decide lanzar la gran corporación de turno

25:47

el mes que viene, pagando una suscripción.

25:50

Ahora sí.

25:50

Ahora somos nosotros los ingenieros capaces de fabricar

25:53

la herramienta exacta que necesitamos.

25:55

Y gratis.

25:56

En nuestra propia casa, a coste cero y

25:58

en un tiempo récord.

25:59

Y fíjate, eso, si nos paramos a pensar

26:02

un segundo en las implicaciones a largo plazo

26:04

de este empoderamiento, nos deja ante un escenario

26:07

fascinante para cerrar.

26:09

A ver, cuéntame.

26:10

Hoy hemos analizado cómo un usuario enseñaba a

26:12

un modelo a mejorar su lógica básica utilizando

26:15

mil ejemplos genéricos de preguntas y respuestas.

26:18

Sí, una prueba de concepto, digamos.

26:20

Exacto.

26:21

Pero la verdadera explosión de valor llegará pronto

26:24

con la hiperespecialización.

26:26

Si una simple tarjeta gráfica comercial puede reconfigurar

26:30

el razonamiento lógico de una IA en un

26:33

minuto, imaginemos lo que ocurrirá cuando comunidades enteras

26:37

empiecen a crear sus propias recetas de datos

26:40

sintéticos.

26:41

Ostras, claro.

26:41

Imaginemos a colectivos de médicos afinando sus propios

26:45

modelos locales con miles de diagnósticos diferenciales complejísimos.

26:49

O a bufetes de abogados.

26:51

Totalmente, destilando IA para que argumente basándose en

26:54

jurisprudencia local muy específica de su comunidad autónoma.

26:57

O ingenieros civiles creando asistentes expertos en normativas

27:01

de construcción superáridas.

27:03

Es que la democratización técnica de estas herramientas

27:06

significa que el futuro de la inteligencia artificial

27:08

igual no va a ser un único modelo

27:10

gigante y omnisciente controlado por una corporación.

27:14

Sino millones de pequeños modelos ultraespecializados.

27:18

Exacto.

27:18

Forjados por expertos de cada sector, desde los

27:22

escritorios de sus propias casas.

27:24

Me parece una reflexión final espectacular.

27:26

Antes de despedirnos, hasta el próximo programa, os

27:29

informamos de que las voces que oyes han

27:31

sido generadas por la IA de Notebook LM.

27:34

Y que dirigiendo al podcast se encuentra Julio

27:36

Pablo Vázquez, un humano que te envía saludos.

27:38

En caso de error, probablemente sean errores humanos.

27:42

Nos escuchamos.

27:54

Y hasta aquí el episodio de hoy.

27:56

Muchas gracias por tu atención.

28:07

Esto es BIMpraxis.

28:09

Nos escuchamos en el próximo episodio.