Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.
¡Empezamos!
Hola, y bienvenidos a un nuevo análisis de BIMPRAXIS.
Hola, ¿qué tal?
Este es el octavo episodio de nuestra serie especial, los papers que cambiaron la historia de la IA.
Y el de hoy es uno de esos que, sin hacer mucho ruido al principio, lo cambió todo.
Hoy vamos a examinar un documento de 2022 que, efectivamente, cambió las reglas del juego.
Se titula Training Language Models to Follow Instructions with Human Feedback.
O, eh, Entrenar Modelos de Lenguaje para Seguir Instrucciones con Retroalimentación Humana.
Es de un equipo de OpenAI, con nombres como Longwu Yang y Jeff Wu.
Y hay que situarse en ese momento.
Totalmente. La filosofía que dominaba era, bueno, bastante simple. Si quieres una IA mejor, hazla más grande.
Más datos, más parámetros, más… y más potencia.
Pero los autores de este paper lanzaron una idea que era casi, casi una herejía en aquel entonces.
Pues sí.
Dijeron que hacer los modelos más grandes no los hace inherentemente mejores,
a la hora de entender lo que de verdad quiere un usuario.
De hecho, a menudo los hacía peores.
Exacto. Generando respuestas falsas, tóxicas o que simplemente no venían a cuento.
Daban palos de ciego por muy potentes que fueran.
El problema de fondo que este documento ataca de frente es el de la alineación.
Una palabra que ahora oímos constantemente.
Pero que entonces era más un concepto teórico.
Se trata de cómo conseguir que una IA potentísima no solo sepa mucho,
sino que use ese conocimiento para alinearse con la intención, los valores y las necesidades de una persona.
Y ese es el reto con mayúsculas.
Pues precisamente eso es lo que vamos a analizar.
Queremos entender el método que propusieron para educar a estos gigantes digitales.
Un método que nos dio una nueva familia de IAS, la llamada InstructGPT.
Que no es otra que la precursora directa de las herramientas que han revolucionado nuestro mundo.
Justo.
Vale, vamos a empezar por el principio.
Porque la primera frase del resumen es toda una declaración de intenciones.
Sí, va directa al grano.
Dice,
¿Por qué era tan rompedor decir esto en voz alta?
Porque iba totalmente en contra de la inercia de toda una industria.
Estábamos en plena carrera armamentística de los parámetros.
Claro.
Teníamos a GPT-3 con sus 175 millones de...
17 parámetros, una auténtica bestia computacional que podía escribir un texto que parecía humano.
Parecía.
Pero era una bestia salvaje.
Le faltaba, digamos, don de gentes.
No entendía el contexto.
Ajá.
Podía inventarse datos con una seguridad pasmosa.
Soltar una barbaridad o irse por las ramas y escribirte un ensayo cuando solo le habías pedido un resumen.
No estaba alineado.
Es la imagen del genio un poco sociópata, ¿no?
Totalmente.
Sabe de todo.
Puede recitarte la enciclopedia.
Pero es incapaz de mantener una conversación normal o de entender algo tan simple como
explícamelo para que lo entienda un niño.
Justo esa es la imagen.
Tenías una máquina potentísima, pero no te servía de mucho.
Como tener un Ferrari para ir a comprar el pan.
Exacto.
El problema no era la falta de conocimiento, sino la falta de comprensión de la tarea.
Este paper cambió la pregunta fundamental.
¿Y cuál fue ese cambio?
Pasamos de preguntarnos cuánta información puede almacenar un modelo
a qué tan bien puede usar esa información para ayudar de verdad a una persona.
¿Entendido el problema?
Entonces, si añadir más y más datos no era la solución, ¿cuál fue su propuesta?
Porque suena a un problema casi filosófico.
Pues su solución fue sorprendentemente elegante y, viéndolo ahora, casi de sentido común.
A ver.
Propusieron un método de entrenamiento en tres fases que no se basaba en más datos de Internet,
sino en la opinión humana.
En enseñar al modelo a base de…
De criterio y preferencia.
Me intriga eso de enseñarle con criterio.
¿Cómo funciona exactamente el primer paso?
El primer paso lo llamaron ajuste fino supervisado.
Lo que hicieron fue contratar a un equipo de etiquetadores humanos…
¿Personas, vaya?
Sí, personas, para crear un conjunto de datos de altísima calidad.
Este conjunto tenía dos partes.
Por un lado, una serie de instrucciones muy variadas…
¿De dónde las sacaban?
Algunas las escribían ellos,
otras eran peticiones reales de usuarios a la app…
Y, por otro lado, los etiquetadores escribían a mano la respuesta que ellos considerarían ideal para cada una de esas instrucciones.
Ah, o sea que, en lugar de soltarlo en la biblioteca infinita de Internet para que aprenda por su cuenta…
Exacto.
¿Le dieron un manual de buenos ejemplos?
¿Es como enseñarle a un estudiante no solo con los libros de texto, sino mostrándole los mejores exámenes, los de matrícula de honor, para que vea a qué debe aspirar?
Has captado la esencia.
Es una forma de anclar todo ese conocimiento abstracto.
Y gigantesco a ejemplos concretos de excelencia.
Pero esto es solo el calentamiento.
Ah, ¿sí?
Es en el segundo paso donde la cosa se vuelve mucho más sofisticada y, para mí, brillante.
Pues adelante, cuéntamelo.
El paso 12 es entrenar un modelo de recompensa.
Aquí tomaron el modelo que ya habían ajustado en el paso 1 y, para una misma instrucción, le pidieron que generara varias respuestas distintas.
Vale.
Digamos entre 4 y 9.
Y aquí viene la magia.
Los etiquetadores humanos no tenían que escribir nada.
Solo tenían que ordenar esas respuestas de mejor a peor.
Ah.
La respuesta A es mejor que la C, que, a su vez, es mejor que la D y la B.
Un ranking.
Entiendo.
Aquí la clave es el matiz.
Ya no es un simple esto está bien, sino que le dan una clasificación completa.
Esta respuesta es genial, esta es aceptable, esta otra es bastante mala.
Justo.
Con eso, el sistema puede aprender lo que es la preferencia, la sutileza.
Le están enseñando a tener buen gusto.
Por así decirlo.
Exacto.
Ese conjunto de datos, con miles y miles de comparaciones, se usa para entrenar a un segundo modelo de IA, uno completamente distinto.
¿Y qué hace ese segundo modelo?
Su única misión en la vida es actuar como un juez.
Se le llama modelo de recompensa y aprende a predecir para cualquier par de respuestas cuál de ellas preferiría un humano.
Internaliza el juicio humano.
Se convierte en una especie de crítico de IA automatizado.
Justo.
Y es la pieza clave del último paso.
Y ese último paso es el que lo une todo, imagino.
Precisamente.
El paso 3 es el que da nombre a toda la técnica.
Aprendizaje por refuerzo con retroalimentación humana.
El famoso RLHF, por sus siglas en inglés.
Ese mismo.
Aquí cogen el modelo de lenguaje original y lo ponen a jugar contra el juez que acabamos de crear.
El modelo recibe una instrucción nueva, genera una respuesta.
Y el juez le pone nota.
Eso es.
El modelo de recompensa le da una puntuación, una recompensa.
Y el objetivo del modelo de lenguaje, a partir de ahí, es simple.
Aprender a generar respuestas que maximicen esa puntuación.
Es un bucle constante de mejora.
El modelo prueba algo, el juez le dice frío, frío o caliente, caliente.
Y el modelo ajusta su estrategia para la siguiente vez.
Sí.
Pasa de ser un simple loro que repite patrones a ser un asistente que intenta activamente dar la mejor respuesta posible.
Un cambio de paradigma brutal.
Has dado en el clavo.
La genialidad está en traducir un concepto tan subjetivo y humano como una buena respuesta
en una señal matemática, una recompensa, que una máquina puede entender y optimizar.
Suena increíblemente bien en la teoría.
Pero la pregunta del millón es, ¿funcionó tan bien en la práctica?
¿Cuáles fueron los resultados?
Los resultados no fueron buenos.
Fueron espectaculares.
Y hubo un dato que dejó a toda la comunidad de IA con la boca abierta.
¿Cuál?
En las evaluaciones a ciegas, donde los humanos comparaban respuestas sin saber de qué modelo venían,
las respuestas del modelo InstructGPT de 1.300 millones de parámetros…
El pequeño, digamos.
El pequeño, sí.
Eran preferidas, de forma consistente, a las del gigantesco y todopoderoso GPT-3 de 175.000 millones de parámetros.
Espera un momento.
¿Me estás diciendo que un modelo 100 veces más pequeño era considerado mejor por la gente?
100 veces, sí.
¿Esto rompe?
¿Esto rompe por completo la lógica que imperaba?
O sea, ¿que el sector entero estaba corriendo una maratón en la dirección equivocada?
Les pilló totalmente por sorpresa.
Mientras todos presumían de músculo, de tamaño, OpenAI se centró en la técnica, en la inteligencia real.
Fue la demostración empírica de que la alineación es más importante que la escala bruta.
De repente, la clave para una IA útil no era tener el superordenador más grande del mundo…
Sino ser el mejor profesor.
Exacto.
Y esa elección es la que ha hecho posible que hoy cualquiera pueda tener una conversación coherente con una IA desde su móvil.
Abrió la puerta a crear IAs más eficientes, más baratas y, sobre todo, más seguras.
Y no era solo una cuestión de que las respuestas gustaran más, ¿verdad?
El paper menciona otras mejoras muy concretas.
Sí. Y no solo eso.
Los modelos Instruct GPT mostraron mejoras muy significativas en veracidad.
Dicho de otro modo, inventaban menos cosas.
Las famosas alucinaciones.
Exacto.
Las redujeron drásticamente.
Y, además, se observó una caída en picado en la generación de textos tóxicos u ofensivos.
El entrenamiento con preferencias humanas lo empujó de forma natural hacia respuestas más seguras y fiables.
Entiendo que lo hicieron más amable y seguro, pero a mí eso me suena a que lo caparon un poco.
Al especializarlo tanto en ser útil y correcto, ¿no perdió potencia o versatilidad por el camino?
Es una pregunta fundamental.
Y los propios investigadores se la hicieron.
Fue un gran riesgo.
Claro.
Pero la respuesta que encontraron fue que el modelo tuvo una regresión mínima en su rendimiento en las tareas académicas estándar.
Es decir, no se volvió tonto por aprender a ser más útil y seguro.
Ah, bien.
Mantuvo casi toda su potencia y su conocimiento enciclopédico, pero ahora sabía cómo aplicarlos de una manera mucho más centrada en lo que el usuario necesitaba.
Fascinante.
Mejoraba en utilidad, veracidad y seguridad sin un coste significativo.
A pesar de todo, algo que me llama la atención es que el propio paper es muy humilde.
Admite que aún comete errores simples.
No lo venden como la panacea.
Y esa honestidad es, para mí, una de las grandes virtudes del trabajo.
Son muy transparentes con las limitaciones.
¿Qué tipo de limitaciones?
Pues que el modelo alineado todavía podía equivocarse en una suma básica, podía generar información falsa si se le insistía o a veces seguía instrucciones dañinas si se le pedían con picaresca.
Y los sesgos de los propios etiquetadores, imagino.
Por supuesto.
Los sesgos de las personas que habían definido lo que era una buena respuesta.
O sea, no lo presentan como el destino final, sino más bien como el mapa que señala un nuevo camino a seguir.
Exactamente.
Lo describen como una dirección prometedora para alinear los modelos de lenguaje con la intención humana.
Y vaya si fue prometedora.
Visto en perspectiva, el método que describen, el RLHF, se ha convertido en el estándar absoluto de la industria.
Es la receta que han seguido todos los grandes modelos de chat que conocemos y usamos hoy.
Este paper no solo nos dio un producto, InstructGPT, sino que regaló al mundo una metodología que ha definido esta era de la IA.
Totalmente.
En resumen, si tuviéramos que quedarnos con una sola idea clave de este trabajo de 2022, sería que la calidad de una IA no depende de su tamaño, sino de lo bien alineada que esté con nosotros.
Y que el método para lograrlo pasa por enseñarle, con paciencia y buenos ejemplos…
¿Qué es lo que valoramos los humanos?
Claro.
Y esto nos abre una puerta a una conversación mucho más profunda, ¿no?
¿A qué te vejeres?
Si este método fue tan eficaz para enseñar a una IA a ser más útil y veraz, ¿qué otros valores y matices del comportamiento humano podríamos enseñarle?
La discusión dejó de ser puramente técnica y pasó a ser sobre utilidad, seguridad y valores.
Pasamos de preguntarnos qué pueden hacer a qué deberían hacer.
Justo.
Y para cerrar, creo que merece la pena dejar una reflexión en el aire.
Mire, todo este sistema se basa en un grupo de personas que deciden qué respuesta es mejor.
Sí, ahí está el debate.
Pero, ¿qué ocurre cuando los propios humanos no nos ponemos de acuerdo sobre lo que es verdadero, útil o correcto?
Este trabajo no solo abrió un pamino tecnológico, sino también un profundo debate filosófico.
¿Sobre qué valores y los valores de quién?
Estamos grabando a fuego en la inteligencia artificial que definirá nuestro futuro.
Exacto.
Un tema fascinante.
Desde luego.
Mañana, en esta serie de BIMPRAXIS, continuaremos nuestro viaje por la historia de la IA con otro paper que, de nuevo, cambió las reglas del juego.
No se lo pierdan.
Va a ser muy interesante.
Gracias por acompañarnos.
Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.
Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.