Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.
¡Empezamos!
Bienvenidos a un nuevo análisis en profundidad de BIMPRAXIS.
Hoy llegamos al séptimo episodio de nuestra serie especial, los papers que cambiaron la historia de la IA.
Y el que tenemos sobre la mesa es uno de mis favoritos, porque es la personificación de la elegancia y la simplicidad.
A primera vista parece proponer una idea casi de niño peteño, vamos, de puro sentido común,
pero su impacto fue tan brutal que reconfiguró por completo nuestra relación con los grandes modelos de lenguaje
y sobre todo nuestra comprensión de su capacidad para...
Bueno, para pensar.
El documento en cuestión es el que se publicó en Archive con el identificador 2201.11903.
El título es Chain of Thought Prompting Elicits Reasoning in Large Language Models,
o, en un español más de andar por casa.
Provocar una cadena de pensamientos saca a la luz el razonamiento en los grandes modelos de lenguaje.
El autor principal es Jason Wei, con un equipo de investigadores de Google.
Nuestra misión hoy es entender por qué esta idea...
que parece tan obvia vista ahora, fue una auténtica revolución.
¿Qué es exactamente una cadena de pensamiento?
¿Y cómo es posible que un simple truco en la forma de preguntar desbloqueara un potencial que ni sus creadores sabían que estaba ahí?
Vale, pues vamos al lío.
Para empezar, situémonos un poco.
Justo antes de este paper, a principios de 2022, ¿cuál era el gran problema que tenían los modelos de lenguaje?
El gran problema, la gran barrera, era el razonamiento en varios pasos.
Piénsalo así.
Teníamos modelos que eran como...
como estudiantes increíblemente brillantes que se habían memorizado toda la biblioteca.
Pero que nunca habían aprendido a resolver un problema desde cero.
Podían recitarte la obra completa de Shakespeare o escribirte un correo electrónico perfecto.
Eran unos imitadores fantásticos.
Unos loros elocuentes, por así decirlo.
Exacto. Unos loros con un vocabulario infinito.
Pero si les planteabas un problema matemático sencillo que no hubieran visto antes,
algo como...
Juan tiene cinco cajas de lápices.
Cada caja tiene doce lápices.
Si le da tres a María, ¿cuántos le quedan?
Ahí el modelo se perdía.
A menudo te daba una respuesta final que parecía plausible, pero...
pero estaba mal.
Y lo peor es que no tenías ni idea de por qué había fallado.
Porque su proceso de razonamiento era una caja negra, ¿no?
Simplemente escupía un resultado.
Precisamente.
El método estándar de Prompting era...
Tú das una pregunta y esperas una respuesta directa.
O sea, pregunta-respuesta.
Para cualquier tarea que requeriera una secuencia lógica, aritmética,
problemas de sentido común, planificación,
esto era como chocar contra un muro.
No estaban diseñados para mostrar su trabajo, por así decirlo.
Simplemente intentaban adivinar el siguiente trozo de texto más probable.
Y a menudo el resultado final era una simple asociación estadística,
no una deducción lógica.
Era muy frustrante para los investigadores.
Vale. El escenario está claro.
Tenemos genios de la imitación que son un desastre en lógica básica.
Y entonces llega este equipo de Google, liderado por Jason Wei,
con una propuesta que, como decía, parece casi demasiado simple para ser verdad.
Es que lo es. Y eso es lo genial.
La idea, como la describen en el abstract, es de una intuición aplastante.
En lugar de darle al modelo solo ejemplos de pregunta-respuesta,
decidieron darle ejemplos mucho más ricos.
O sea, pregunta, paso de razonamiento 1, paso de razonamiento 2, punto, punto, punto, respuesta final.
Es como enseñar a un niño a resolver un problema para un examen.
No le dices simplemente, la respuesta es 42.
Le enseñas el tamino.
Le dices, a ver, primero, lee bien el enunciado.
Segundo, identifica los datos que tienes.
Tercero, plantea la ecuación.
Le enseñas el proceso, no solo la solución.
Me gusta mucho esa analogía porque es perfecta.
Y lo más fascinante es que no solo le enseñas el proceso, es que le obligas a escribirlo.
El simple acto de forzar al modelo a generar esos pasos intermedios,
a verbalizar su cadena de pensamiento,
parece que es lo que activa las conexiones neuronales necesarias para estructurar el problema de forma lógica.
No es una modificación del modelo, es una técnica de enseñanza.
Un momento, y esto es clave.
¿Me estás diciendo que no tuvieron que reentredar el modelo ni tocar su arquitectura?
Nada, cero.
Y esa es la magia de este enfoque que ellos llaman Chain of Thought Prompting.
Es un método que se aplica en el momento de la inferencia,
es decir, cuando le haces la pregunta.
Simplemente, en el prompt inicial, le incluyes unos pocos ejemplos,
lo que se llama Few Shot Learning,
y en esos ejemplos le demuestras cómo se razona.
Le dices, mira, para este tipo de problemas, así es como se piensa.
Y el modelo, al ver esos ejemplos, aprende a imitar, no solo la respuesta, sino el proceso de razonamiento.
Pero en el paper, hacen una distinción muy importante.
Esto no funciona con cualquier modelo.
No, y ese es uno de los descubrimientos más profundos del estudio.
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.
No, y ese es uno de los descubrimientos más profundos del estudio.
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.
Para razonar, siguiendo una cadena de pensamiento,
es lo que ellos llaman una propiedad emergente de los modelos a gran escala.
Es decir, es una capacidad que no existe o es muy débil en modelos pequeños,
pero que emerge de forma natural y muy robusta cuando el modelo supera un cierto umbral de tamaño.
En este caso, en torno a los 100.000 millones de parámetros.
O sea, es como si los modelos más pequeños no tuvieran suficiente espacio mental para desarrollar esta habilidad latente.
Es una buena forma de verlo, sí.
Es como si intentaras ejecutar un videojuego de última generación en un ordenador de hace 20 años.
Simplemente, el hardware no da para más.
La capacidad estaba ahí, latente en los grandes modelos, como un músico dormido.
Y la cadena de pensamiento fue la melodía que lo despertó.
Nadie había probado a pedirle que pensara en voz alta.
Los del paper una se queda boquiabierta.
Los propios autores dicen que los resultados son sorprendentes.
Y se quedan cortos. Son espectaculares.
El experimento que lo cambió todo fue el que hicieron con el Benchmark GSM-8K.
Espera, para quien no lo conozca, ¿qué tipo de problemas hay en ese Benchmark?
¿Son sumas y restas sencillas?
No, no, para nada. GSM-8K son las siglas de Grade School Math 8K.
Y es un conjunto de unos 8.000 problemas matemáticos.
De nivel de primaria o secundaria, pero no son ecuaciones simples.
Son problemas narrativos. De esos que ocupan varias frases y te obligan a pensar, ¿sabes?
Ajá.
De ese tipo, una panadera horneó 4 tartas de manzana y 3 de cereza.
Si cada tarta se corta en 8 porciones y vende 25 porciones en total, ¿cuántas porciones le quedan?
Requieren múltiples pasos lógicos.
Entendido. Son problemas que un adolescente podría tener que pararse a pensar. No es trivial.
¿Y qué pasó?
Pues aquí viene lo bueno. Cogieron su modelo más grande, de 540.000 millones de parámetros.
Simplemente 8 ejemplos. Solo 8. Demostraciones de problemas resueltos con la técnica de cadena de pensamiento.
Y con solo eso, el modelo no solo mejoró, sino que alcanzó un rendimiento de vanguardia en ese benchmark,
superando a modelos que habían sido entrenados específicamente para esa tarea.
Un momento. Que procese esto. Con solo 8 ejemplos, en el prompt,
superaron a un modelo que había sido modificado y reentrenado de forma específica y costosa para resolver problemas matemáticos.
Eso suena casi a trampa.
Suena a magia. Pero es ciencia. De hecho, el paper destaca que su resultado superó a un modelo como GPT-3
que había sido ajustado finamente, lo que se conoce como Fine Tuning,
y que además usaba un verificador externo para comprobar las respuestas.
Para que quede claro para todo el mundo, cuando hablamos de Fine Tuning o ajuste fino,
nos referimos a un proceso caro y complejo de reentrenamiento, ¿verdad?
Es como llevar el coche al taller.
¿O llevar el coche al taller para modificar el motor y prepararlo para una carrera?
Es una analogía perfecta. El Fine Tuning es eso.
Abrir el capó, cambiar piezas, optimizar el motor para un circuito específico.
Requiere muchísimos datos de entrenamiento, un coste computacional enorme y semanas de trabajo.
Es un proceso industrial, vamos.
En cambio, el prompting de cadena de pensamiento es simplemente aprender una nueva técnica para conducir ese mismo coche, sin tocarle un solo tornillo.
Es descubrir que si tomas las curvas de una manera determinada, eres más rápido que el coche tuneado.
Entonces, ¿qué significa todo esto?
Porque las implicaciones son enormes.
Significa que descubríos que la forma en que pedimos las cosas,
la forma en que conversamos con la IA, es tan importante como la propia herramienta.
Completamente. Este paper provocó un cambio sísmico en la comunidad de IA.
Demostró que no todo consistía en una carrera armamentística de hardware,
demostró que no todo consistía en una carrera armamentística de hardware,
sino que había que construir los más y más grandes y alimentarlos con más y más datos.
También había un camino de eficiencia, de inteligencia en la interacción.
Fue la validación definitiva del campo que hoy conocemos como Ingeniería de Prompts.
Pasamos de una carrera de fuerza bruta a una de astucia, por así decirlo.
Precisamente.
De repente, un investigador avispado con una buena idea sobre cómo hablar con el modelo
podía obtener mejores resultados que un gran laboratorio con recursos masivos para hacer fine tuning.
En cierto modo, niveló el campo de juego.
Democratizó el acceso a un razonamiento de IA más avanzado.
Porque la barrera de entrada ya no era sólo tener la máquina más potente,
sino también tener la mejor idea sobre cómo usarla.
Recuerdo perfectamente la sensación en la comunidad cuando se publicaron estos resultados.
Hubo un silencio. Y luego una especie de clic colectivo.
Alguien dijo, hemos estado haciendo esto mal todo este tiempo.
Fue un gran momento de humildad.
Y es una idea que vemos hoy en todas partes.
Cuando usamos un asistente de IA y le pedimos, explícame esto paso a paso o razona tu respuesta,
estamos usando un descendiente directo de la técnica que Jason Wei y su equipo presentaron en este paper.
Se publicó originalmente a principios de 2022, justo en el epicentro de la explosión de la IA generativa.
Y es una de las piezas clave para entenderlo.
Por qué los modelos actuales son capaces de hacer lo que hacen.
Absolutamente. Es uno de los pilares sobre los que se construyen las asombrosas capacidades que vemos hoy.
La idea de que el razonamiento no es algo que el modelo sabe de forma estática,
sino algo que hace de forma dinámica cuando se le pida de la manera correcta.
Es una distinción sutil, pero increíblemente poderosa.
Resumiendo, si tuviéramos que destilar las ideas clave de este análisis, ¿cuáles serían?
Yo diría que son tres.
La primera, los grandes modelos de lenguaje, a partir de cierto tamaño,
poseen capacidades de razonamiento latentes dormidas.
La segunda, la técnica de prompting de cadena de pensamiento es la llave que despierta esas capacidades,
al forzar al modelo a pensar paso a paso.
Y la tercera, y más importante, este método tan simple demostró ser más eficaz para ciertas tareas
que técnicas mucho más complejas y costosas.
Y eso cambió el foco de la investigación.
Desde la pura escala, hacia la inteligencia en la interacción humana y alta.
Es una pasada pensar en cómo una idea tan intuitiva pudo tener un efecto dominó tan grande.
Nos deja con una idea fascinante sobre cómo desbloquear el potencial oculto,
no sólo en máquinas, sino quizás en muchos otros sistemas.
Y si esta idea de descubrir habilidades ocultas os parece interesante,
no os podéis ni imaginar lo que se espera mañana.
Continuaremos la serie con otro paper que abrió una puerta que muchos en el campo de la tecnología,
pensaban que estaba cerrada, con llave para siempre.
Os aseguro que nos dejará indiferentes.
Y para reflexionar hasta entonces, este trabajo nos deja con una pregunta casi filosófica.
Si una simple reestructuración de una petición, un simple cambio en la forma de conversar,
puede desbloquear una capacidad tan compleja y humana como es el razonamiento,
¿qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,
aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?
¿Qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,
aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?
Y hasta aquí el episodio de hoy, muchas gracias por tu atención.
Y hasta aquí el episodio de hoy, muchas gracias por tu atención.
Esto es BIMPRAXIS, nos escuchamos en el próximo episodio.