E024_Tu modelo de lenguaje es secretamente un modelo de recompensa

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:30

¿Alguna vez nos hemos parado a pensar en la extraña dualidad de la inteligencia artificial?

0:44

¿A qué te refieres exactamente?

0:45

Pues que, por un lado, tienes un sistema que ha absorbido, no sé, prácticamente todo el conocimiento humano escrito en Internet.

0:54

Pero, por otro, si lo dejas a su aire, puede ser, pues, completamente inútil o incluso caótico.

1:00

Ah, sí, es la gran pregunta.

1:03

La gran pregunta es, ¿cómo se le enseña a ser un copiloto fiable? O sea, ¿cómo se le enseña a comportarse?

1:09

Es que ese es el desagio central del sector en los últimos años.

1:13

Tienes esta potencia de cálculo y de conocimientos sin precedentes, pero carece de algo que es fundamental, el criterio.

1:21

El criterio, exacto.

1:22

No tiene un sentido innato de lo que es útil o seguro o simplemente coherente para una persona.

1:29

Es como tener un motor de Fórmula 1 sin volante ni frenos.

1:33

Una metáfora bastante acertada, sí.

1:36

Y, precisamente, de cómo se instaló un sistema de dirección mucho más eficiente va el análisis de hoy.

1:42

Bienvenidos a todos.

1:43

Además, hoy es un día un poco especial.

1:46

Hoy alcanzamos un pequeño hito en nuestra colaboración con BIMPRAXIS.

1:50

Es la décima entrega de esta serie especial, los papers que cambiaron la historia de la IA.

1:55

Y para celebrarlo, hemos escogido un artículo que, en mi opinión, es un ejemplo perfecto de elegancia científica.

2:03

Un trabajo de 2023 que miró un problema que todo el mundo atacaba con, bueno, con fuerza bruta y complejidad

2:10

y propuso una solución de una simplicidad absoluta.

2:13

Asombrosa.

2:14

El título ya da pistas.

2:16

El título ya es toda una declaración de intenciones.

2:19

Direct Preference Optimization.

2:21

Your language model is secretly a reward model.

2:24

Tu modelo de lenguaje es secretamente un modelo de recompensa.

2:28

Suena casi a thriller de espías, ¿eh?

2:30

Un poco, sí.

2:31

Pues el plan para los próximos minutos es justo ese.

2:35

Entender por qué el método anterior para educar a estas IAs era tan aparatoso.

2:40

Cómo este ideal lo cambió todo de la noche a la mañana.

2:43

Y sobre todo, por qué este avance es tan relevante.

2:45

Y relevante para la tecnología que muchísimos ya usamos a diario, además.

2:50

Bien, para entender la genialidad de la solución, primero hay que entender la magnitud del problema.

2:56

Partimos de estos modelos de lenguaje gigantescos, los LLMs.

3:00

¿Entrenados para una sola cosa?

3:01

Para una sola cosa.

3:03

Predecir la siguiente palabra en una secuencia.

3:05

Y son increíblemente buenos en eso, pero claro, esa habilidad no se traduce directamente en ser un buen conversador o un asistente útil.

3:13

Exacto.

3:13

A esa falta de educación, digamos, la llamamos el problema del alineamiento.

3:19

Un modelo no alineado puede darte respuestas verborreicas, inventarse datos con total seguridad, quedarse atascado en bucles…

3:26

O cosas peores.

3:28

O, en el peor de los casos, generar contenido dañino porque lo ha visto en algún rincón oscuro de Internet.

3:33

El objetivo es alinearlo con los valores y las intenciones humanas.

3:37

O sea, que sea útil, honesto y seguro.

3:39

Y hasta la llegada del paper de hoy.

3:42

Sí, el estándar de oro para conseguir esto era un método con un nombre bastante intimidante.

3:48

RLHF.

3:49

Uf, RLHF.

3:51

Que son las siglas de Reinforcement Learning from Human Feedback.

3:54

O sea, aprendizaje por refuerzo con retroalimentación humana.

3:58

Y era un proceso, ¿eh?

4:00

Tan complejo como su nombre sugiere.

4:01

El propio artículo lo describe así, ¿no?

4:03

Sí, el propio artículo lo describe como un procedimiento de múltiples etapas y cada una era un desafío en sí misma.

4:10

A ver, describamos ese proceso.

4:12

Porque creo que ilustra perfectamente contra qué luchaban los investigadores.

4:16

¿Cuál era el primer paso?

4:17

Pues el primer paso era puramente humano.

4:20

Y masivo.

4:21

Se recopilaban miles y miles de datos de preferencias.

4:24

¿Cómo?

4:25

Esencialmente se le pedía a un grupo enorme de personas que evaluaran las respuestas del modelo.

4:32

Se les presentaba una pregunta y dos respuestas de la IA y tenían que elegir cuál es mejor.

4:37

Ya, a veces por utilidad, otras por seguridad, estilo.

4:42

Lo que fuera.

4:42

O sea, un ejército de anotadores humanos enseñando al sistema, caso por caso, lo que significa mejor.

4:48

Me imagino que eso ya de por sí es un proceso lento y caro.

4:51

Carísimo.

4:53

Y solo es el principio.

4:54

Una vez que tienes esa gigantesca base de datos de comparaciones, respuesta A es mejor que B,

5:01

empieza la segunda fase, entrenar a un juez artificial.

5:05

¿Un segundo modelo?

5:06

Un segundo modelo de inteligencia artificial.

5:08

Sí, completamente separado del primero.

5:10

Su único propósito es aprender.

5:12

Aprender de esos datos para predecir qué respuesta le gustaría más a un humano.

5:16

Este es el famoso modelo de recompensa.

5:19

Entiendo.

5:20

O sea, construyes una IA para que juzgue a otra IA.

5:24

Y supongo que el tercer paso es ponerlas a interactuar.

5:27

Ahí es donde entra la parte más compleja y, como dice el paper, a menudo inestable.

5:33

El aprendizaje por refuerzo.

5:36

El modelo del lenguaje original empieza a generar respuestas.

5:39

El juez artificial.

5:41

El modelo de recompensa le pone una nota a cada una.

5:44

¿Y a base de prueba y error?

5:46

A base... Sigamos con esa analogía.

5:48

Es perfecta.

5:50

Para programar al robot, primero le das a probar miles de pares

5:53

de rebanadas de pan a un panel de expertos para que elijan su favorita.

5:56

Claro.

5:57

Con esos datos enseñas al robot a imitar sus bustos.

6:01

Y una vez que el robot funciona, pones al panadero a hornear miles de panes a ciegas

6:05

y el robot simplemente le dice caliente o frío a cada intento.

6:10

El panadero tiene que deducir

6:11

la receta correcta a partir de esas señales tan indirectas.

6:14

Es un proceso enrevesado, indirecto y que suena terriblemente ineficiente.

6:20

Lo era.

6:20

Requería mantener y entrenar dos modelos enormes.

6:24

Ajustar decenas de parámetros técnicos muy sensibles, los hiperparámetros,

6:28

y rezar para que el sistema no divergiera o colapsara durante el entrenamiento.

6:32

Que pasaba a menudo, por lo que se cuenta.

6:34

Pasaba constantemente.

6:36

Recuerdo leer los foros de desarrolladores en aquella época y...

6:40

La frustración era palpable.

6:42

RLHF era la mejor herramienta que teníamos, pero era un verdadero dolor de cabeza.

6:48

Y aquí es donde el equipo de Rafael Lobby y compañía entra en escena y básicamente

6:54

le da la vuelta a la mesa. Su propuesta se llama DPO,

6:57

optimización directa de preferencias, y esa palabra directa es la clave de todo.

7:03

Es que lo fascinante es el cambio de perspectiva.

7:06

Ellos miraron ese complejo sistema de tres fases,

7:09

con dos modelos, y se hicieron la pregunta fundamental.

7:13

¿Es realmente necesario construir ese robot catador?

7:16

¿O es posible que la información ya esté en otra parte?

7:19

¿O es posible que la información sobre lo

7:21

que constituye un buen pan ya esté de alguna manera dentro del propio panadero?

7:26

Un momento, frena ahí.

7:28

Me estás diciendo que el modelo de lenguaje, que en principio sólo sabe

7:32

predecir la siguiente palabra, ya tenía implícitamente la capacidad

7:36

de entender qué respuesta es mejor que otra.

7:38

¿Que la solución estaba oculta a plena vista?

7:41

Sí, pues eso es exactamente lo que demostraron matemáticamente.

7:45

La gran revelación del paper es que no se necesita un modelo de recompensa externo.

7:50

Descubrieron una relación matemática

7:52

directa y elegante entre la política del modelo de lenguaje,

7:56

o sea, lo que decide escribir, y la función de recompensa óptima.

8:00

O sea que. En otras palabras,

8:02

encontraron una forma de usar los datos de preferencias humanas.

8:05

Esta respuesta es mejor que esta para ajustar

8:08

el modelo de lenguaje original directamente, sin intermediarios.

8:12

Clasificación de esto es bueno y esto es malo.

8:14

Capturar toda la sutileza del lenguaje y sustituir a ese sistema tan complejo.

8:19

¿Dónde está el truco?

8:20

El truco está en la formulación matemática, que es brillante.

8:25

En lugar de un sistema de prueba y error con recompensas,

8:28

transforman el problema en uno de clasificación binaria, que es mucho más simple y estable.

8:33

Vale. Al modelo se le presentan los dos textos, el preferido por los humanos y el

8:38

preferido, y su única tarea es ajustar sus conexiones internas para aumentar la

8:43

probabilidad de generar el texto bueno y disminuir la de generar el malo.

8:47

Es un ajuste fino, directo y elegantísimo.

8:50

Y se saltan todo lo demás.

8:52

Se saltan por completo la necesidad de

8:54

entrenar un juez y todo el andamiaje del aprendizaje por refuerzo.

8:58

Volviendo a la panadería, esto sería como sentarse con el panadero,

9:01

ponerle delante dos barras de pan y decirle Mira, la corteza de esta es perfecta y la

9:08

es esponjosa. Aprende directamente de esta comparación.

9:11

Exactamente esa es la intuición.

9:14

El panadero asimila esa información y

9:16

ajusta su propia técnica sin robots de por medio.

9:19

Claro. Y las ventajas que el artículo enumera son contundentes.

9:23

Primero, la estabilidad.

9:25

Al eliminar el aprendizaje por refuerzo,

9:27

eliminas la principal fuente de dolores de cabeza y de entrenamientos fallidos.

9:31

Y segundo, el coste.

9:32

Segundo, es computacionalmente mucho más ligero.

9:35

Requiere menos memoria, menos tiempo de GPU,

9:38

lo cual es vital cuando cada hora

9:39

de entrenamiento de estos modelos cuesta una fortuna.

9:42

Entonces, si es más estable y requiere

9:44

menos recursos, ¿qué significa eso para un equipo de desarrollo pequeño?

9:49

¿Pueden ahora competir en un terreno que

9:51

antes parecía reservado sólo para los gigantes tecnológicos?

9:54

Esa es una de las consecuencias más importantes.

9:57

La simplicidad de implementación es una ventaja brutal.

10:01

Ya no necesitas un equipo de expertos

10:03

en aprendizaje por refuerzo para ajustar tus modelos.

10:06

Es mucho más sencillo de poner

10:08

en marcha.

10:09

Y había otro punto técnico clave que mencionaba el paper.

10:12

Sí, hay otro punto que ahorra una cantidad de tiempo y dinero increíble.

10:16

No necesita muestrear respuestas del modelo durante el ajuste fino.

10:20

En RLHF, el modelo tenía que generar

10:23

millones de respuestas para que el juez las evaluara.

10:25

Con DPO, ese paso desaparece.

10:28

En resumen, una solución más limpia, más barata y más democrática.

10:33

Exacto.

10:34

La teoría es impecable.

10:35

Más simple, más estable, más barato.

10:38

Pero la prueba de fuego siempre está en la práctica.

10:41

¿Los resultados experimentales respaldan

10:44

esta simplicidad tan elegante o hay alguna contrapartida en la calidad?

10:48

Esa es la pregunta del millón y los

10:50

autores se centraron mucho en demostrarlo empíricamente.

10:54

La conclusión principal, que exponen sin rodeos en el abstract,

10:57

es que DPO consigue alinear los modelos de lenguaje tan bien y en algunos casos

11:03

incluso mejor que los métodos basados en RLHF.

11:07

Incluso mejor, es increíble.

11:09

Conseguir un resultado superior con un método más simple es el santo grial

11:13

en cualquier disciplina de ingeniería.

11:15

A veces la elegancia gana a la fuerza bruta.

11:18

El paper detalla varios experimentos para demostrarlo.

11:20

Por ejemplo, en una tarea muy interesante

11:23

que consistía en controlar el sentimiento de las respuestas del modelo.

11:26

Hacerlas más positivas o negativas a propósito.

11:29

Eso es, pedirle que generara textos deliberadamente más positivos o más

11:34

negativos, pues ahí DPO

11:37

superó con claridad al método de RLHF más popular de la época,

11:41

que se basaba en un algoritmo llamado PPO.

11:44

Lo que significa que el modelo resultante era más controlable, más predecible.

11:49

Podías dirigir su comportamiento con mayor precisión.

11:52

Precisamente.

11:53

Y en tareas más estándar, como la capacidad de resumir textos

11:57

largos o mantener un diálogo coherente, los resultados fueron igual de sólidos.

12:02

O sea que igualó o mejoró la calidad.

12:05

DPO igualó o mejoró la calidad.

12:07

DPO igualó la calidad de las respuestas en comparación con los métodos anteriores.

12:11

Consiguieron lo mismo o más,

12:13

pero con una fracción de la complejidad y del coste computacional.

12:17

Ahora bien, ¿es DPO la solución definitiva para todo?

12:20

¿O existen escenarios donde el viejo y complejo RLHF todavía podría tener alguna ventaja?

12:26

Es una pregunta muy pertinente.

12:28

DPO es extremadamente bueno para optimizar

12:32

un modelo basándose en un conjunto de datos de preferencias que ya existe.

12:37

Sin embargo, hay escenarios más exploratorios,

12:41

donde quizá quieres que el modelo descubra comportamientos completamente nuevos.

12:45

Entiendo.

12:46

En esos casos, algunos argumentan que el componente de exploración del aprendizaje

12:52

por refuerzo de RLHF podría seguir teniendo valor.

12:56

Pero para la tarea más común, que es coger un modelo ya potente y pulirlo

13:01

para que sea un buen asistente, DPO se ha convertido en el nuevo estándar

13:05

de facto.

13:06

Por su eficiencia.

13:07

Y el impacto de esto va mucho más allá de un laboratorio de investigación.

13:11

Cuando una tecnología fundamental se vuelve diez veces más simple y barata,

13:15

las ondas expansivas se notan en todo el ecosistema.

13:18

Totalmente.

13:19

Piensa en una startup con un equipo de 15 personas que ha desarrollado un modelo

13:24

de lenguaje para un nicho específico, por ejemplo, el sector legal o el médico.

13:30

Vale.

13:30

Antes de DPO, el proceso de alineación para hacerlo seguro y fiable era una barrera

13:36

casi insuperable, un coste que sólo podían asumir las grandes corporaciones.

13:41

DPO les abrió la puerta.

13:43

Claro.

13:44

De repente, equipos más pequeños, con menos recursos o incluso grupos

13:48

de investigación universitarios, podían permitirse el lujo de alinear

13:52

sus propios modelos de forma eficiente.

13:54

Acelera la innovación y la competencia porque permite que más actores entren

14:00

en el juego y ofrezcan soluciones especializadas.

14:03

Un problema que era un cuello de botella técnico y económico,

14:05

se convirtió en una herramienta mucho más accesible para todos.

14:09

Sin duda.

14:10

Si tuviéramos que condensar la importancia de este paper en una sola idea, ¿cuál sería?

14:14

Para mí, la gran lección es que a veces para resolver un problema increíblemente

14:21

complejo, la respuesta no es añadir más capas, más sistemas, más complejidad.

14:28

A veces es quitar.

14:29

La respuesta es dar un paso atrás y buscar una perspectiva nueva y más inteligente.

14:35

DPO demostró que la solución al alineamiento no estaba en construir un juez

14:40

externo, sino en encontrar la manera de hablar con el modelo en un idioma que ya entendía.

14:45

Es la navaja de Occam en estado puro, aplicada a la inteligencia artificial.

14:50

La solución más simple, a menudo, es la correcta.

14:53

La clave estaba oculta dentro del propio modelo, como sugería el título.

14:57

Y esto me parece que plantea una reflexión

14:59

importante sobre cómo enfocamos la investigación en este campo.

15:02

Hay una tendencia natural a pensar que los problemas más

15:05

grandes y difíciles requieren soluciones cada vez más grandes y complicadas.

15:09

Sí, este paper es un maravilloso

15:12

recordatorio de que un destello de elegancia matemática puede ser mucho más

15:18

poderoso que la fuerza bruta computacional.

15:20

A veces el mayor avance consiste en simplificar.

15:25

Me encanta el camino que abre este descubrimiento.

15:28

Si resulta que el modelo de lenguaje era

15:30

secretamente un modelo de recompensa y esa capacidad estaba ahí latente,

15:35

esperando ser descubierta.

15:36

Exacto.

15:37

Esto nos obliga a preguntarnos qué otras capacidades fundamentales podrían tener

15:43

estos sistemas ocultas en su estructura matemática, esperando a que alguien

15:47

encuentre la llave correcta para desbloquearlas.

15:50

Es una pregunta fascinante.

15:51

Quizá no se trata sólo de hacerlos más grandes, sino de aprender a entender mejor

15:56

lo que ya son. Es una idea que da un poco de vértigo, pero es fascinante.

16:01

Una pregunta que sin duda definirá la

16:04

próxima década de investigación en IA.

16:07

Y hablando de desbloquear nuevas

16:09

capacidades, no se pueden perder el análisis de mañana.

16:12

El de mañana también es muy bueno.

16:14

Vamos a explorar un paper interesantísimo

16:17

que cambió por completo nuestra idea de cómo las máquinas pueden razonar.

16:21

Les aseguro que es uno de esos que te deja pensando durante días.

16:35

Y hasta aquí el episodio de hoy.

16:38

Muchas gracias por tu atención.

16:49

Esto es BIMPRAXIS.

16:51

Nos escuchamos en el próximo episodio.

E024_Tu modelo de lenguaje es secretamente un modelo de recompensa

Episode description

Persons