E077_Afina en local tu propia IA con Unsloth Studio

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:29

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:41

Hoy os traemos cómo afinar tu propia inteligencia

0:45

artificial en casa con un Sloth Studio y

0:48

una tarjeta gráfica comercial.

0:50

Hola, ¿qué tal?

0:51

A ver, fíjate en esto.

0:53

Hasta hace nada, un par de años como

0:55

mucho, si alguien quería alterar el código fundamental

0:58

de una inteligencia artificial, la imagen mental era

1:01

inevitable, ¿no?

1:02

Totalmente.

1:03

Necesitabas, o sea, el presupuesto de un país

1:05

pequeño.

1:06

Sí, sí, y un centro de datos enorme

1:08

en Islandia o algo así.

1:09

Exacto, un centro de datos en Islandia.

1:11

Un centro de datos en Islandia refrigerado bajo

1:12

cero y un equipo de 50 ingenieros escribiendo

1:15

un código incomprensible.

1:17

Una locura, vamos.

1:18

Pero la realidad de hoy, y esto es

1:20

lo que vamos a desgranar en este análisis,

1:22

es otra completamente distinta.

1:24

Resulta que el ordenador que mucha gente tiene

1:26

en su salón, pues para jugar a videojuegos,

1:29

tiene ahora mismo la potencia suficiente para reescribir

1:32

la mente de un modelo de lenguaje.

1:33

Y ojo, en exactamente un minuto.

1:36

Eso es, en un minuto.

1:38

Por eso hoy tenemos sobre la mesa un

1:40

material súper interesante.

1:41

Un material que desglosa cómo una serie de

1:42

herramientas gratuitas están democratizando este proceso por completo.

1:47

Concretamente usando el proyecto de código abierto Ansloth

1:50

y, bueno, su nueva interfaz visual, el Ansloth

1:53

Studio.

1:53

Es que es un cambio de paradigma monumental.

1:56

O sea, si conectamos esto con la perspectiva

1:59

general, lo que este material nos está mostrando

2:02

no es sólo una nueva herramienta de software,

2:05

sin más.

2:06

Ya.

2:06

Es literalmente el colapso de la mayor barrera

2:09

de entrada que existía en el desarrollo.

2:11

La barrera del hardware y de la complejidad,

2:15

¿verdad?

2:15

Tal cual.

2:15

La complejidad técnica y el altísimo coste computacional.

2:19

Porque, históricamente, los usuarios de a pie éramos

2:23

meros consumidores.

2:25

Consumidores de modelos que empresas gigantes habían entrenado

2:29

por nosotros con esos presupuestos millonarios.

2:32

Te daban la caja negra y tú a

2:33

usarla.

2:34

Exactamente.

2:34

Pero lo que Ansloth plantea con este nuevo

2:37

flujo de trabajo es, fíjate, darnos las llaves

2:40

del taller.

2:41

Ya no ejecutamos modelos estáticos.

2:43

Ahora los modificamos y les enseñamos comportamientos nuevos

2:47

de forma local, en nuestra propia casa.

2:49

A ver, vamos a desgranar esto porque el

2:51

salto me parece enorme.

2:52

Para quienes ya siguen el tema, el proyecto

2:54

Ansloth ya era muy respetado en la comunidad

2:57

de código abierto, ¿no?

2:58

Sí, muchísimo.

2:59

Porque era súper eficiente a la hora de

3:00

procesar IA.

3:01

Pero la pieza clava que analizan las fuentes

3:03

de hoy es un Sloth Studio.

3:05

Eso es, la versión estudio.

3:07

Y la gran revolución, por lo que entiendo,

3:10

no es que añadan más algoritmos.

3:11

Matemáticos hipercomplejos y ocultos, sino que aporta una

3:15

capa visual, una interfaz gráfica.

3:17

Sí, es como si nos dijeran que ya

3:19

no hace falta alquilar un laboratorio corporativo para

3:21

experimentar, sino que podemos montar, no sé, un

3:24

reactor de IA en el ordenador que usamos

3:26

para jugar y encima sin tener que picar

3:28

líneas y líneas de código en una terminal

3:30

oscura, que es lo que echaba para atrás

3:32

a mucha gente.

3:33

Hombre, claro, es que la terminal impone y

3:36

lo más impactante de este análisis es que

3:38

exige unos requisitos de hardware que a ver.

3:41

Ya están en muchísimos ovares.

3:42

Sí, las famosas tarjetas gráficas comerciales.

3:45

Claro, se menciona que todo este flujo funciona

3:48

sobre tarjetas gráficas GeForce RTX de consumo.

3:54

El único requisito fuerte que señalan las fuentes

3:56

es tener al menos 16 GB de memoria

3:59

VRAM, memoria de vídeo, para afilar un modelo

4:02

pequeño.

4:03

Que a ver, 16 GB de VRAM es

4:05

una cifra crítica.

4:06

Sí, es la frontera.

4:08

Porque hacen no tanto tiempo hablar de esa

4:09

cantidad de memoria de vídeo determinada.

4:11

Lo que era dedicada era terreno exclusivo de

4:13

estaciones de trabajo profesionales.

4:15

De servidores, prácticamente.

4:16

Exacto.

4:17

Pero hoy en día es una especificación estándar

4:20

en la gama media -alta que usan diseñadores

4:22

gráficos, editores de vídeo o los aficionados al

4:26

gaming.

4:26

El hardware ya está distribuido, está en millones

4:29

de casas.

4:30

El cuello de botella era el conocimiento para

4:32

aprovechar ese hardware.

4:33

Tal cual.

4:34

Y eso es exactamente lo que viene a

4:35

resolver esta nueva generación de interfaces visuales como

4:38

Unslot Studio.

4:39

Pero claro, aquí es donde se pone realmente

4:42

interesante la cosa.

4:43

Una vez que tenemos la máquina y el

4:45

programa instalados, la pregunta es ¿qué construimos exactamente?

4:50

Porque el análisis de hoy nos propone un

4:52

objetivo súper concreto.

4:53

Tomar un modelo de lenguaje pequeñito, que por

4:56

defecto te da respuestas cortas, directas, un poco

4:59

telegráficas, y transformarlo en uno que posea un

5:01

razonamiento analítico profundo.

5:04

Que explique sus motivos paso a paso.

5:06

Exacto.

5:07

Y para lograr esto, el material de hoy

5:09

es un modelo de lenguaje pequeño.

5:09

Y detalla un concepto que me parece fascinante.

5:11

El flujo de trabajo de destilación, o Distillation

5:14

Workflow.

5:15

Ahí es que la destilación de conocimientos es

5:18

uno de los conceptos más elegantes que hay

5:19

en el aprendizaje automático actual.

5:21

A ver, explícanos cómo funciona esto de la

5:24

destilación.

5:24

Pues mira, en este escenario tenemos básicamente dos

5:27

entidades.

5:28

Por un lado, tenemos al modelo alumno.

5:30

El aprendiz.

5:31

Exacto.

5:32

Que en este caso práctico es el modelo

5:34

llamado Dos Instruct.

5:35

Vale.

5:36

Es un modelo ligero, rápido.

5:39

Ideal para ejecutarse en casa sin que el

5:41

ordenador salga ardiendo.

5:42

Pero como bien decías, es un modelo que

5:44

va directo al grano.

5:45

Te da la respuesta y ya está, sin

5:47

mostrar su proceso mental.

5:49

Y por otro lado, tenemos al modelo profesor.

5:52

Que este es el modelo gordo, ¿no?

5:54

Claro, es un modelo mucho más complejo, grande

5:57

y capaz.

5:58

En el documento realizado mencionan el Nemotron 3

6:01

Nano de NVIDIA, que se caracteriza precisamente por

6:03

tener una gran capacidad de razonamiento lógico.

6:06

Vale, entiendo.

6:07

Entonces, el objetivo del proceso de destilación...

6:09

...de destilación es, en esencia, transferir esa metodología

6:12

de pensamiento rigurosa del profesor al alumno.

6:15

Y aquí, oye, me surge una duda absolutamente

6:17

pragmática.

6:18

Porque seguro que más de uno lo está

6:19

pensando.

6:20

A ver, dispara.

6:21

Si ya tenemos un modelo grande, este profesor

6:23

que comentas, que es buenísimo, que es súper

6:26

inteligente y que ya sabe razonar paso a

6:29

paso de forma natural.

6:30

Sí.

6:30

Pues, a ver, ¿por qué no usamos simplemente

6:33

ese modelo grande y nos ahorramos todo el

6:35

trabajo?

6:35

Claro.

6:36

O sea, ¿por qué tomarnos la tremenda molestia?

6:38

Desesperación.

6:39

Sentar a un modelo gigante a enseñarle trucos

6:41

a uno pequeño.

6:42

Parece que estamos dando un rodeo innecesario, la

6:45

verdad.

6:45

Es la pregunta fundamental del millón.

6:47

Y la respuesta, en una palabra, es eficiencia.

6:51

Eficiencia operativa.

6:53

Vale.

6:54

Un modelo grande, como nuestro profesor Nemotron, es

6:57

brillante, ¿de acuerdo?

6:59

Pero computacionalmente es obeso.

7:02

Obeso.

7:03

Me gusta la palabra.

7:04

Es que lo es.

7:05

Consume una cantidad masiva de recursos, de energía...

7:09

De energía y de memoria, simplemente para generar

7:11

una sola palabra.

7:12

Claro.

7:13

Si intentamos usar ese modelo gigantesco de forma

7:16

constante para las tareas cotidianas en un equipo

7:19

local, el sistema colapsaría.

7:21

O, en el mejor de los casos, sería

7:23

desesperantemente lento.

7:24

Te puedes ir a tomar un café entre

7:26

pregunta y pregunta.

7:28

Tal cual.

7:29

Sin embargo, si usamos ese modelo grande una

7:33

sola vez...

7:34

Solo una vez.

7:34

Para generar ejemplos perfectos de razonamiento.

7:37

Ah, vale, vale.

7:37

Y luego, destilarlo.

7:39

Si usamos ese estilo, esa forma de pensar

7:41

en el modelo pequeño, la ecuación cambia por

7:44

completo.

7:45

Porque obtenemos un alumno que imita esa calidad

7:47

de razonamiento, pero manteniendo su arquitectura súper ligera.

7:50

Exactamente.

7:51

Conseguimos respuestas profundas a una velocidad vertiginosa y

7:55

consumiendo poquísima energía en nuestro día a día.

7:58

Es una inversión inicial a cambio de un

8:00

rendimiento sostenido espectacular.

8:02

Vale.

8:03

Ahora entiendo el esquema perfectamente.

8:05

Básicamente, usamos al erudito para que escriba unos

8:08

apuntes perfectos.

8:10

Y luego, el estudiante avispado se aprende la

8:13

estructura de sus apuntes para poder aplicarla rapidísimo

8:16

en los exámenes, sin tener que cargar con

8:18

toda la enciclopedia en la mochila.

8:20

Esa analogía es perfecta.

8:21

Pero claro, para que el estudiante aprenda, necesitamos

8:24

fabricar ese libro de texto primero, esos apuntes.

8:28

Y el material nos lleva a una fase

8:29

que llaman creación de datos sintéticos, que es

8:32

donde se cocina todo esto.

8:34

La pestaña de recetas o recipes en Anxiloth

8:37

Studio.

8:38

Exacto.

8:39

Porque olvidándonos un poco de los botones y

8:41

los menús, lo que realmente se hace aquí

8:43

es diseñar una cadena de montaje de información.

8:45

Una tubería de datos, un pipeline.

8:48

Todo empieza con unos cimientos sólidos.

8:50

El usuario no parte de cero.

8:52

Menos mal, porque inventarse mil preguntas con sus

8:55

respuestas tiene tela.

8:56

Ya te digo.

8:57

El proceso parte de un conjunto de datos

9:00

que ya existe, llamado Anxiloth Alpaca Clean.

9:04

Alpaca Clean.

9:05

Sí, que es un estándar en la industria.

9:09

Está alojado en la plataforma Hugging Face y

9:11

contiene, pues, miles de ejemplos de instrucciones típicas

9:15

de usuarios y sus correspondientes respuestas.

9:18

El formato clásico de pregunta y respuesta de

9:20

toda la vida.

9:21

Eso es.

9:21

Pero claro, el análisis nos advierte de un

9:24

problema.

9:25

Esas respuestas del Alpaca Clean son cortas, son

9:29

directas.

9:29

Y nosotros, precisamente, queremos enseñar a argumentar.

9:33

Claro, no nos sirven tal cual.

9:35

Entonces, lo que nos explican es que se

9:37

coge ese conjunto de datos… …y se toma

9:41

una decisión bastante radical.

9:42

Se elimina por completo la columna de las

9:45

respuestas originales.

9:46

Se borran.

9:47

De cuajo.

9:48

Así, sin más.

9:49

Y en ese hueco que queda libre, conectan

9:52

al modelo profesor para que él redacte las

9:55

respuestas nuevas.

9:56

Exactamente.

9:57

Y para que esa conexión funcione y sea

9:59

automática, el flujo de trabajo utiliza lo que

10:02

se llaman plantillas Jinja, J -I -N -J

10:06

-A, que actúan como el tejido… …el tejido

10:09

conectivo de todo este tinglado.

10:11

A ver, explícanos un poco qué es esto

10:13

de Jinja, porque suena a magia negra de

10:15

programación.

10:16

Qué va, qué va.

10:17

Las plantillas Jinja son cruciales aquí, pero no

10:20

son ninguna caja negra.

10:21

Son simplemente un motor de plantillas de texto.

10:25

¿Vale?

10:25

O sea, rellenar huecos.

10:27

Exacto.

10:28

Lo que hacen es tomar variables dinámicas de

10:31

una base de datos.

10:32

Por ejemplo, en nuestro caso, la pregunta original

10:34

del usuario que sacamos del conjunto Alpaca.

10:37

Sí.

10:38

Y la inserta… …están dentro de una estructura

10:40

de texto predefinida.

10:41

Un prompt gigante que se envía automáticamente al

10:44

modelo profesor.

10:45

Ah, vale.

10:46

O sea que el sistema no tiene que

10:48

estar escribiendo manualmente las mil consultas una por

10:51

una.

10:51

Claro que no.

10:52

Las genera programáticamente gracias a la plantilla.

10:55

Profesor, para que rellene los huecos, hay un

10:58

detalle técnico en las fuentes que me parece

11:00

la clave de bóveda de todo este asunto.

11:02

El modo pensamiento.

11:05

Exacto.

11:05

El Thinking Mode.

11:07

No le piden simplemente al profesor que responda

11:09

a la pregunta.

11:10

Van a la configuración y le activan este

11:13

parámetro específico.

11:14

Y le dan muchísimo margen, sí.

11:17

Sí.

11:17

Le dan un límite de más de 2

11:19

.000 tokens, que es un montón de texto,

11:21

para que tenga espacio para explayarse a gusto.

11:24

Es que ese modo pensamiento es el núcleo

11:26

absoluto de la destilación.

11:28

Al activarlo, estamos forzando al modelo profesor a

11:32

que, por favor, no entregue la solución de

11:34

forma inmediata.

11:35

¿Le cortamos el atajo?

11:37

Le obligas a generar lo que en el

11:38

mundillo se conoce como una traza de razonamiento,

11:41

o Reasoning Trace.

11:43

Que es como pensar en voz alta.

11:45

Exacto.

11:45

El modelo tiene que imprimir en texto todo

11:48

su proceso deductivo.

11:49

O sea, qué variables está considerando en el

11:51

problema, qué posibles soluciones existen… ¿Por qué descarta

11:55

una opción y se queda con otra?

11:57

Eso es.

11:57

Esa disección paso a paso es el verdadero

12:01

conocimiento de oro puro que queremos que el

12:03

modelo alumno absorba.

12:05

Pero, a ver… Espera un momento.

12:07

Dime.

12:08

Tengo que hacer un poco de abogado del

12:10

diablo en este punto.

12:11

Porque al leer las fuentes, esto me plantea

12:13

una paradoja tremenda.

12:15

A ver, ¿de ese te ha ocurrido?

12:16

Estamos usando una inteligencia artificial para que se

12:19

invente el material de estudio que luego va

12:21

a utilizar otra inteligencia artificial para aprender.

12:24

Sí, datos sintéticos.

12:25

¿Pero no corremos el riesgo de crear una

12:27

cámara de eco absoluta?

12:29

O sea, si el modelo profesor alucina un

12:31

dato o tiene una lógica defectuosa en algún

12:34

tema concreto… Ajá.

12:35

…el modelo alumno… …va a asimilar ese error

12:39

como una verdad absoluta y lo va a

12:42

replicar.

12:43

No estamos retroalimentando los fallos del propio sistema

12:46

y haciéndolos más grandes.

12:48

A ver, es una objeción súper válida, ¿eh?

12:50

De hecho, es un debate central ahora mismo

12:52

en toda la investigación sobre datos sintéticos.

12:55

Es que suena un poco a teléfonos cacharrado.

12:57

Lo sé, pero hay que entender con muchísima

12:59

precisión qué estamos extrayendo exactamente del modelo profesor,

13:04

en este flujo en concreto.

13:05

Vale.

13:07

Fíjate que no le estamos pidiendo que invente

13:09

hechos históricos ni que descubra nuevas leyes de

13:11

la física partiendo de cero, ¿eh?

13:13

Ya, le damos la pregunta a nosotros.

13:15

Exacto.

13:16

Estamos usando un conjunto de datos base, el

13:18

alpaca clean, que ya contiene la premisa inicial

13:21

real.

13:21

Lo que le pedimos al modelo profesor no

13:23

es que invente datos… Sino que… …mino hacia

13:26

una respuesta fundamentada.

13:28

O sea, estamos destilando la estructura del pensamiento

13:31

analítico, la sintaxis de la lógica.

13:33

No estamos inventando verdades nuevas.

13:35

Ah, vale.

13:37

O sea, ¿le estamos enseñando a justificar?

13:38

¿No le estamos dando una enciclopedia nueva?

13:41

Tal cual.

13:41

Piénsalo así.

13:42

Si tuviéramos que parar a expertos humanos para

13:45

que redactaran a mano mil trazas de razonamiento

13:48

superdetalladas, paso por paso… Madre mía, tardaríamos meses.

13:53

Meses, y costaría una fortuna.

13:55

Pero el modelo grande lo hace en minutos,

13:57

estructurando la lógica de una forma superconsistente.

14:01

Visto así, la verdad es que tiene todo

14:03

el sentido del mundo.

14:04

Bien.

14:04

Pues una vez que el sistema termina de

14:06

procesar la lógica de una forma superconsistente… …y

14:06

comenzamos a procesar todo esto en la pestaña

14:08

de recetas, nos encontramos con mil ejemplos sintéticos

14:11

perfectos.

14:12

Mil pares de instrucción y razonamiento.

14:14

Mil problemas donde se muestra la pregunta, todo

14:17

el razonamiento interno entre unas etiquetas especiales de

14:20

pensamiento y la conclusión final.

14:23

Ya tenemos los apuntes listos.

14:25

Tenemos los apuntes.

14:26

Pero ahora viene el reto físico.

14:28

¿Cómo embutimos toda esta información gigantesca en el

14:31

cerebro de un modelo de lenguaje que ya

14:33

de por sí pesa gigabytes?

14:34

Ajá.

14:35

¿Y todo esto utilizando únicamente la memoria de

14:37

la tarjeta gráfica del ordenador de casa que

14:39

decíamos que eran 16 gigas?

14:41

Pues aquí es donde la ingeniería de software

14:42

brilla con luz propia, de verdad.

14:45

¿Por qué no explota la tarjeta?

14:46

No, no explota gracias a una técnica de

14:48

entrenamiento maravillosa llamada Q -Lora.

14:51

Q -Lora.

14:52

Con Q y luego Lora.

14:54

Eso es.

14:55

A ver, si tuviéramos que reescribir todos los

14:57

pesos neuronales del modelo base, o sea, los

14:59

miles de millones de parámetros matemáticos que lo

15:02

componen, para enseñarle esto nuevo… …necesitaríamos… …necesitaríamos el

15:05

centro de datos de Islandia que decíamos al

15:07

principio.

15:09

Exactamente.

15:10

Necesitaríamos granjas enteras de servidores.

15:13

Pero Q -Lora evita esto por completo.

15:17

¿Cómo lo hace?

15:18

Las fuentes lo explican muy bien.

15:19

Sí.

15:20

La parte Lora, que son unas siglas en

15:22

inglés para adaptación de bajo rango… Sí.

15:25

…consiste básicamente en congelar el cerebro original del

15:30

modelo.

15:30

No lo tocamos.

15:31

Se queda de solo lectura.

15:33

Eso es.

15:33

Y en su lugar, le añadimos unas pequeñas

15:36

matrices matemáticas externas.

15:39

Oye, me encantó la analogía que hacían al

15:41

explicar esto.

15:42

Es como si en lugar de tener que

15:43

reimprimir un libro entero en la imprenta para

15:45

corregir un concepto o añadir un capítulo… Exacto.

15:49

…simplemente cogemos el libro original y le vamos

15:51

pegando unas notas adhesivas en los márgenes con

15:53

la información nueva.

15:54

Es la mejor analogía posible.

15:57

Las notas adhesivas son el Lora.

15:59

Pero espera.

16:00

La letra Q de Q -Lora.

16:02

Añade otra capa más a este asunto, ¿verdad?

16:05

Sí.

16:06

Añade la capa de la compresión extrema.

16:09

Porque no solo estamos usando esas notas adhesivas

16:12

para no estropear el libro original.

16:14

Claro.

16:15

La Q representa la cuantización.

16:18

Siguiendo con tu analogía del libro.

16:20

No solo usamos notas adhesivas para ahorrar papel

16:24

y tinta, sino que además, en esas notas,

16:27

escribimos utilizando una taquigrafía matemática ultracomprimida.

16:32

Ah, vale.

16:33

O sea, letra súper pequeñita.

16:35

Matemáticamente hablando, sí.

16:37

Reducimos la precisión numérica de la información.

16:40

Pasamos de usar números grandísimos de coma flotante

16:43

de 16 bits a formatos mucho más pequeños,

16:46

como de 4 bits.

16:48

Y eso reduce drásticamente el espacio que ocupan.

16:51

Reduce muchísimo la memoria VRAM necesaria.

16:54

Esta combinación de no tocar el modelo original

16:58

y, encima, comprimir a lo bestia las actualizaciones,

17:01

es lo que permite que todo el proceso

17:03

encaje mágicamente en esos 16 gigas de una

17:06

gráfica doméstica.

17:07

Es flipante.

17:08

Y esto nos lleva directamente a la pestaña

17:11

donde ocurre la magia.

17:12

La pestaña estudio.

17:13

Y a la configuración del entrenamiento en sí.

17:15

Los famosos hiperparámetros.

17:17

Sí.

17:17

El documento detalla unos valores muy específicos que

17:20

en la interfaz visual son botoncitos, pero que

17:22

si no se explican, la verdad es que

17:23

suenan a jerga incomprensible.

17:25

Totalmente.

17:26

Por ejemplo, configuran un parámetro que se llama

17:29

LoRaAlpha, y le ponen un valor de 32.

17:32

A ver, entendiendo que LoRa son esas notas

17:34

adhesivas de aprendizaje que decíamos, ¿qué función cumple

17:38

exactamente ese valor alfa de 32?

17:40

Pues mira, el parámetro LoRaAlpha actúa en términos

17:44

prácticos como un control de volumen, o un

17:48

factor de escala para el conocimiento nuevo.

17:50

Un control de volumen.

17:52

Sí.

17:52

A ver, si tú le pones un alfa

17:55

muy bajito, el modelo le va a hacer

17:57

muy poco caso a las notas adhesivas.

17:59

Va a seguir comportándose mayoritariamente como lo hacía

18:03

antes.

18:03

Como si la nota estuviera escrita muy flojito

18:05

y casi no la lee.

18:06

Exacto.

18:07

Pero al establecerlo en 32, que suele ser

18:10

el doble del rango habitual que se configura

18:12

en estas matrices matemáticas, Le estamos gritando, básicamente.

18:16

le estamos diciendo al modelo que le dé

18:17

una importancia supersignificativa a este nuevo estilo de

18:20

razonamiento.

18:21

Ah, claro.

18:22

Estamos forzando que la nueva estructura lógica tenga

18:24

un peso dominante sobre sus respuestas impulsivas originales,

18:28

para que no vaya directo al grano, que

18:30

es su instinto.

18:31

Entendido.

18:32

Y luego hay otro parámetro superclásico, la famosa

18:35

tasa de aprendizaje, el learning rate.

18:38

Sí.

18:38

Que lo configuran en 1 elevado a menos

18:40

4, el 1e4.

18:42

Esto, si lo bajamos a tierra para visualizarlo,

18:45

es básicamente la longitud de la zancada que

18:47

da el modelo mientras busca la respuesta correcta

18:50

en el entrenamiento.

18:50

Tal cual, la longitud del paso.

18:53

Durante el entrenamiento, el modelo hace predicciones y

18:56

se equivoca.

18:56

Se equivoca mucho al principio respecto a los

18:59

ejemplos perfectos que le hemos dado.

19:00

Lógico.

19:01

Pues la tasa de aprendizaje define con qué

19:04

agresividad corrige esos errores.

19:05

Si das un paso demasiado grande… Tropieza.

19:08

Bueno, sobrecorrige.

19:09

Se vuelve inestable y nunca consolida lo que

19:12

aprende.

19:12

Se pasa de frenada.

19:14

Ya.

19:14

¿Y si el paso es muy pequeñito?

19:16

Pues que el entrenamiento podría tardar semanas en

19:18

converger, porque va a pasito de tortuga.

19:20

Claro.

19:21

Entonces, el valor de 1e4 es un estándar.

19:24

Es un valor muy sólido.

19:26

Comprobado ya, empíricamente, para métodos como este, como

19:30

Qlorra.

19:31

Es el punto dulce.

19:33

Eso es.

19:33

Asegura que el modelo alumno asimile las trazas

19:36

de razonamiento de forma estable y a un

19:39

buen ritmo.

19:39

Vale.

19:40

Y para rematar esta receta de configuración, establecen

19:43

un temaño de lote, el batch size, de

19:45

10.

19:46

Y configuran 100 pasos de entrenamiento.

19:48

Que las matemáticas cuadran solas ahí.

19:51

Claro.

19:51

Hacemos la cuenta matemática básica de primaria.

19:53

10 ejemplos por lote, multiplicados por 100 pasos,

19:57

nos da exactamente los 1000 ejemplos sintéticos que

20:00

habíamos generado en la receta al principio.

20:02

Es decir, que el modelo se lee el

20:04

libro de texto completo una sola vez.

20:07

Es lo que en el mundillo se conoce

20:09

como hacer una época.

20:10

Una época entera.

20:11

Vale.

20:12

Y mientras esto ocurre, lo bueno de la

20:14

interfaz visual es que el usuario no está

20:16

mirando una terminal con letras verdes pasando a

20:19

toda velocidad.

20:19

No.

20:20

¿Tienes una gráfica visual?

20:22

Sí.

20:22

El sistema te dibuja una curva de pérdida,

20:25

el training loss, que según cuentan las fuentes,

20:28

va cayendo en picado.

20:29

Es que esa curva descendente es la confirmación

20:32

visual de que la transferencia de conocimiento está

20:35

funcionando.

20:36

Que está aprendiendo, vamos.

20:37

Claro.

20:38

La pérdida representa la diferencia entre lo que

20:41

el modelo predice y la respuesta perfecta de

20:44

nuestro conjunto de datos.

20:46

Ver cómo esa línea baja de forma constante

20:48

te está indicando que el alumno está comprendiendo

20:50

e interiorizando la estructura lógica.

20:52

Se está convirtiendo en un pensador analítico delante

20:55

de tus ojos.

20:56

Exacto.

20:57

Pero a ver, el hito más importante de

20:59

todo este proceso, lo que de verdad, de

21:02

verdad cambia las reglas del juego, es el

21:04

tiempo que tarda en dibujarse esa curva.

21:06

Ay, es que esa es la cifra que

21:08

deja a cualquiera sin palabras.

21:09

En el hardware que utilizan para esta demostración

21:12

de un Sloth Studio, todo esto dura un

21:14

minuto.

21:15

60 segundos de reloj.

21:17

Me estás diciendo que tardas más en ir

21:19

a la cocina a hacerte un café que

21:20

en cambiarle el cerebro a una inteligencia artificial.

21:22

Es que es literal.

21:23

El impacto que tiene esta cifra, este minuto,

21:27

en la forma en que trabajamos y desarrollamos

21:29

tecnología, es absolutamente colosal.

21:31

Es que lo cambia todo.

21:32

No es solo una cuestión de, ay, somos

21:34

muy impacientes y queremos las cosas ya.

21:36

Es que si tardas un minuto en entrenar

21:39

un modelo, el coste del error prácticamente desaparece

21:42

de la ecuación.

21:43

Totalmente.

21:43

Tú puedes plantear una hipótesis.

21:45

Preparas los datos visualmente.

21:47

Entrenas en un minuto.

21:48

Pruebas y, oye, que sale mal, que alucina

21:51

o lo que sea.

21:51

Pues no pasa nada.

21:52

Pues no pasa nada.

21:53

Cambias dos parámetros y lo vuelves a intentar

21:56

cinco minutos después.

21:57

Esta velocidad de iteración transforma por completo el

22:00

ciclo de investigación.

22:01

Has dado en la diana.

22:03

La reducción del tiempo de iteración es el

22:06

verdadero motor de cualquier innovación tecnológica.

22:08

Ajá.

22:09

Piensa que cuando entrenar un modelo requería alquilar

22:11

instancias en la nube que te costaban miles

22:13

de dólares… Y esperar semanas para ver si

22:16

funcionaba.

22:16

Claro.

22:17

El margen para la experimentación era nulo.

22:20

Te la jugabas a una carga.

22:21

Cierta.

22:21

Solo las grandes corporaciones con unos presupuestos ilimitados

22:24

podían permitirse fracasar.

22:26

Y tirar a la basura todo ese dinero

22:28

y tiempo.

22:28

Eso es.

22:29

Al comprimir ese ciclo a un minuto, en

22:31

un entorno local, en tu casa, y gratuito,

22:34

estamos permitiendo que desarrolladores independientes, estudiantes de universidad

22:38

o pequeñas startups… Prueben 50 ideas diferentes en

22:41

una sola tarde de domingo.

22:43

Exactamente.

22:44

La fricción para innovar se ha reducido literalmente

22:47

a cero.

22:47

Es flipante.

22:48

Y bueno, toda esta fricción reducida culmina en

22:51

el momento en el que la innovación se

22:51

vuelve más fácil.

22:51

Y es que el momento de la verdad

22:52

en Unslot Studio.

22:53

La evaluación empírica.

22:54

Porque, oye, la teoría matemática es impecable.

22:57

Nos ha quedado clarísimo.

22:58

Sí.

22:59

Sobre el papel, todo funciona.

23:01

Pero hay que ver cómo se comporta el

23:02

modelo en la práctica.

23:03

En el proceso descrito, una vez finalizado ese

23:06

minuto glorioso de entrenamiento, se van a la

23:08

pestaña de chat… Sí, cargan a este nuevo

23:11

alumno ya graduado.

23:12

Y le lanzan una consulta de lógica.

23:14

Es que el cambio de comportamiento ahí es

23:16

el test definitivo del éxito de la destilación.

23:19

Qué hacía antes y qué hace ahora.

23:21

Mira, antes del entrenamiento, si tú le hacías

23:23

una pregunta compleja de varios pasos, al modelo

23:26

base intentaba escupir la respuesta final casi de

23:29

forma instintiva.

23:30

Como un loro.

23:31

Sí.

23:31

Y a menudo equivocándose estrepitosamente en la lógica.

23:36

Pero tras aplicar nuestra receta de mil ejemplos…

23:40

¿Qué pasa?

23:40

El comportamiento se transforma radicalmente.

23:43

El modelo hace una pausa conceptual.

23:46

Empieza a escupir texto con etiquetas de pensamiento,

23:49

¿no?

23:50

Exacto.

23:50

Detalles.

23:51

Vaya explícitamente su tren de pensamiento.

23:54

Evalúa las premisas de la pregunta.

23:56

Descarta opciones que no tienen sentido.

23:58

Razona.

23:59

Razona.

24:00

Y sólo al final de esa larguísima cadena

24:03

deductiva proporciona la respuesta correcta.

24:05

Ha asimilado por completo la metodología del profesor.

24:08

Es la cristalización de todo el esfuerzo.

24:11

Y lo mejor de todo, y esto es

24:13

clave, es que este nuevo modelo supercapaz que

24:16

nos hemos fabricado no se queda secuestrado dentro

24:18

del programa de Unsloth.

24:20

No, no.

24:20

Tú eres dueño del archivo.

24:22

Claro.

24:23

El flujo de trabajo finaliza en la pestaña

24:25

Export, explicando cómo se exporta al mundo real.

24:28

Utilizan un estándar fantástico del código abierto llamado

24:33

llama .cpp.

24:35

L -L -A -M -A punto C -P

24:39

-P.

24:40

Sí.

24:40

Que sirve para empaquetar el modelo, manteniendo además

24:43

esa cuantización, esa compresión de las notas adhesivas

24:47

de la que hablábamos.

24:48

O sea, te genera un archivo comprimido listo

24:50

para usar.

24:50

La exportación es, de hecho, lo que convierte

24:53

un simple experimento de laboratorio en una herramienta

24:56

de producción real.

24:57

Claro.

24:58

Al empaquetarlo, en ese formato, ese modelo ya

25:01

es completamente autónomo.

25:02

Es un archivito que puedes integrar en una

25:05

aplicación propia.

25:06

Lo puedes subir a un servidor interno de

25:09

tu empresa para que lo usen tus empleados,

25:11

o simplemente compartirlo con la comunidad en Internet.

25:14

Demuestra que el objetivo de estas herramientas visuales

25:17

no es sólo hacer, digamos, investigación académica aburridas.

25:20

Sino la creación de utilidades prácticas y aplicables

25:23

en el mundo real, hechas por cualquiera.

25:25

Desde casa.

25:26

Es el empoderamiento absoluto del usuario frente a

25:29

la famosa caja negra de las grandes tecnológicas.

25:32

Herramientas visuales superintuitivas combinadas con métodos de compresión

25:36

matemáticos brillantes bajo el capó.

25:38

Nos han puesto directamente a los mandos.

25:41

Ya no somos pasajeros.

25:42

Ya no somos pasajeros esperando a ver que

25:45

IA decide lanzar la gran corporación de turno

25:47

el mes que viene, pagando una suscripción.

25:50

Ahora sí.

25:50

Ahora somos nosotros los ingenieros capaces de fabricar

25:53

la herramienta exacta que necesitamos.

25:55

Y gratis.

25:56

En nuestra propia casa, a coste cero y

25:58

en un tiempo récord.

25:59

Y fíjate, eso, si nos paramos a pensar

26:02

un segundo en las implicaciones a largo plazo

26:04

de este empoderamiento, nos deja ante un escenario

26:07

fascinante para cerrar.

26:09

A ver, cuéntame.

26:10

Hoy hemos analizado cómo un usuario enseñaba a

26:12

un modelo a mejorar su lógica básica utilizando

26:15

mil ejemplos genéricos de preguntas y respuestas.

26:18

Sí, una prueba de concepto, digamos.

26:20

Exacto.

26:21

Pero la verdadera explosión de valor llegará pronto

26:24

con la hiperespecialización.

26:26

Si una simple tarjeta gráfica comercial puede reconfigurar

26:30

el razonamiento lógico de una IA en un

26:33

minuto, imaginemos lo que ocurrirá cuando comunidades enteras

26:37

empiecen a crear sus propias recetas de datos

26:40

sintéticos.

26:41

Ostras, claro.

26:41

Imaginemos a colectivos de médicos afinando sus propios

26:45

modelos locales con miles de diagnósticos diferenciales complejísimos.

26:49

O a bufetes de abogados.

26:51

Totalmente, destilando IA para que argumente basándose en

26:54

jurisprudencia local muy específica de su comunidad autónoma.

26:57

O ingenieros civiles creando asistentes expertos en normativas

27:01

de construcción superáridas.

27:03

Es que la democratización técnica de estas herramientas

27:06

significa que el futuro de la inteligencia artificial

27:08

igual no va a ser un único modelo

27:10

gigante y omnisciente controlado por una corporación.

27:14

Sino millones de pequeños modelos ultraespecializados.

27:18

Exacto.

27:18

Forjados por expertos de cada sector, desde los

27:22

escritorios de sus propias casas.

27:24

Me parece una reflexión final espectacular.

27:26

Antes de despedirnos, hasta el próximo programa, os

27:29

informamos de que las voces que oyes han

27:31

sido generadas por la IA de Notebook LM.

27:34

Y que dirigiendo al podcast se encuentra Julio

27:36

Pablo Vázquez, un humano que te envía saludos.

27:38

En caso de error, probablemente sean errores humanos.

27:42

Nos escuchamos.

27:54

Y hasta aquí el episodio de hoy.

27:56

Muchas gracias por tu atención.

28:07

Esto es BIMpraxis.

28:09

Nos escuchamos en el próximo episodio.

E077_Afina en local tu propia IA con Unsloth Studio

Episode description

Descripción del Episodio

Persons