E021_Cadena de pensamiento. Desbloqueando el razonamiento de la IA

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidos a un nuevo análisis en profundidad de BIMPRAXIS.

0:41

Hoy llegamos al séptimo episodio de nuestra serie especial, los papers que cambiaron la historia de la IA.

0:48

Y el que tenemos sobre la mesa es uno de mis favoritos, porque es la personificación de la elegancia y la simplicidad.

0:55

A primera vista parece proponer una idea casi de niño peteño, vamos, de puro sentido común,

1:00

pero su impacto fue tan brutal que reconfiguró por completo nuestra relación con los grandes modelos de lenguaje

1:07

y sobre todo nuestra comprensión de su capacidad para...

1:11

Bueno, para pensar.

1:12

El documento en cuestión es el que se publicó en Archive con el identificador 2201.11903.

1:20

El título es Chain of Thought Prompting Elicits Reasoning in Large Language Models,

1:26

o, en un español más de andar por casa.

1:28

Provocar una cadena de pensamientos saca a la luz el razonamiento en los grandes modelos de lenguaje.

1:34

El autor principal es Jason Wei, con un equipo de investigadores de Google.

1:38

Nuestra misión hoy es entender por qué esta idea...

1:41

que parece tan obvia vista ahora, fue una auténtica revolución.

1:45

¿Qué es exactamente una cadena de pensamiento?

1:48

¿Y cómo es posible que un simple truco en la forma de preguntar desbloqueara un potencial que ni sus creadores sabían que estaba ahí?

1:56

Vale, pues vamos al lío.

1:58

Para empezar, situémonos un poco.

2:00

Justo antes de este paper, a principios de 2022, ¿cuál era el gran problema que tenían los modelos de lenguaje?

2:06

El gran problema, la gran barrera, era el razonamiento en varios pasos.

2:10

Piénsalo así.

2:12

Teníamos modelos que eran como...

2:14

como estudiantes increíblemente brillantes que se habían memorizado toda la biblioteca.

2:19

Pero que nunca habían aprendido a resolver un problema desde cero.

2:23

Podían recitarte la obra completa de Shakespeare o escribirte un correo electrónico perfecto.

2:28

Eran unos imitadores fantásticos.

2:30

Unos loros elocuentes, por así decirlo.

2:33

Exacto. Unos loros con un vocabulario infinito.

2:35

Pero si les planteabas un problema matemático sencillo que no hubieran visto antes,

2:40

algo como...

2:41

Juan tiene cinco cajas de lápices.

2:43

Cada caja tiene doce lápices.

2:45

Si le da tres a María, ¿cuántos le quedan?

2:47

Ahí el modelo se perdía.

2:49

A menudo te daba una respuesta final que parecía plausible, pero...

2:52

pero estaba mal.

2:53

Y lo peor es que no tenías ni idea de por qué había fallado.

2:56

Porque su proceso de razonamiento era una caja negra, ¿no?

3:00

Simplemente escupía un resultado.

3:02

Precisamente.

3:03

El método estándar de Prompting era...

3:05

Tú das una pregunta y esperas una respuesta directa.

3:09

O sea, pregunta-respuesta.

3:10

Para cualquier tarea que requeriera una secuencia lógica, aritmética,

3:15

problemas de sentido común, planificación,

3:17

esto era como chocar contra un muro.

3:19

No estaban diseñados para mostrar su trabajo, por así decirlo.

3:22

Simplemente intentaban adivinar el siguiente trozo de texto más probable.

3:26

Y a menudo el resultado final era una simple asociación estadística,

3:29

no una deducción lógica.

3:31

Era muy frustrante para los investigadores.

3:34

Vale. El escenario está claro.

3:36

Tenemos genios de la imitación que son un desastre en lógica básica.

3:40

Y entonces llega este equipo de Google, liderado por Jason Wei,

3:44

con una propuesta que, como decía, parece casi demasiado simple para ser verdad.

3:48

Es que lo es. Y eso es lo genial.

3:51

La idea, como la describen en el abstract, es de una intuición aplastante.

3:56

En lugar de darle al modelo solo ejemplos de pregunta-respuesta,

3:59

decidieron darle ejemplos mucho más ricos.

4:01

O sea, pregunta, paso de razonamiento 1, paso de razonamiento 2, punto, punto, punto, respuesta final.

4:10

Es como enseñar a un niño a resolver un problema para un examen.

4:13

No le dices simplemente, la respuesta es 42.

4:16

Le enseñas el tamino.

4:18

Le dices, a ver, primero, lee bien el enunciado.

4:21

Segundo, identifica los datos que tienes.

4:23

Tercero, plantea la ecuación.

4:25

Le enseñas el proceso, no solo la solución.

4:28

Me gusta mucho esa analogía porque es perfecta.

4:31

Y lo más fascinante es que no solo le enseñas el proceso, es que le obligas a escribirlo.

4:36

El simple acto de forzar al modelo a generar esos pasos intermedios,

4:40

a verbalizar su cadena de pensamiento,

4:43

parece que es lo que activa las conexiones neuronales necesarias para estructurar el problema de forma lógica.

4:49

No es una modificación del modelo, es una técnica de enseñanza.

4:53

Un momento, y esto es clave.

4:55

¿Me estás diciendo que no tuvieron que reentredar el modelo ni tocar su arquitectura?

4:59

Nada, cero.

5:01

Y esa es la magia de este enfoque que ellos llaman Chain of Thought Prompting.

5:05

Es un método que se aplica en el momento de la inferencia,

5:07

es decir, cuando le haces la pregunta.

5:10

Simplemente, en el prompt inicial, le incluyes unos pocos ejemplos,

5:13

lo que se llama Few Shot Learning,

5:15

y en esos ejemplos le demuestras cómo se razona.

5:18

Le dices, mira, para este tipo de problemas, así es como se piensa.

5:22

Y el modelo, al ver esos ejemplos, aprende a imitar, no solo la respuesta, sino el proceso de razonamiento.

5:28

Pero en el paper, hacen una distinción muy importante.

5:32

Esto no funciona con cualquier modelo.

5:34

No, y ese es uno de los descubrimientos más profundos del estudio.

5:38

Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

5:39

No, y ese es uno de los descubrimientos más profundos del estudio.

5:39

Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

5:40

Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

5:40

Para razonar, siguiendo una cadena de pensamiento,

5:42

es lo que ellos llaman una propiedad emergente de los modelos a gran escala.

5:46

Es decir, es una capacidad que no existe o es muy débil en modelos pequeños,

5:50

pero que emerge de forma natural y muy robusta cuando el modelo supera un cierto umbral de tamaño.

5:56

En este caso, en torno a los 100.000 millones de parámetros.

6:00

O sea, es como si los modelos más pequeños no tuvieran suficiente espacio mental para desarrollar esta habilidad latente.

6:08

Es una buena forma de verlo, sí.

6:09

Es como si intentaras ejecutar un videojuego de última generación en un ordenador de hace 20 años.

6:15

Simplemente, el hardware no da para más.

6:17

La capacidad estaba ahí, latente en los grandes modelos, como un músico dormido.

6:22

Y la cadena de pensamiento fue la melodía que lo despertó.

6:25

Nadie había probado a pedirle que pensara en voz alta.

6:28

Los del paper una se queda boquiabierta.

6:31

Los propios autores dicen que los resultados son sorprendentes.

6:35

Y se quedan cortos. Son espectaculares.

6:38

El experimento que lo cambió todo fue el que hicieron con el Benchmark GSM-8K.

6:43

Espera, para quien no lo conozca, ¿qué tipo de problemas hay en ese Benchmark?

6:47

¿Son sumas y restas sencillas?

6:49

No, no, para nada. GSM-8K son las siglas de Grade School Math 8K.

6:54

Y es un conjunto de unos 8.000 problemas matemáticos.

6:57

De nivel de primaria o secundaria, pero no son ecuaciones simples.

7:01

Son problemas narrativos. De esos que ocupan varias frases y te obligan a pensar, ¿sabes?

7:06

Ajá.

7:07

De ese tipo, una panadera horneó 4 tartas de manzana y 3 de cereza.

7:12

Si cada tarta se corta en 8 porciones y vende 25 porciones en total, ¿cuántas porciones le quedan?

7:18

Requieren múltiples pasos lógicos.

7:21

Entendido. Son problemas que un adolescente podría tener que pararse a pensar. No es trivial.

7:27

¿Y qué pasó?

7:28

Pues aquí viene lo bueno. Cogieron su modelo más grande, de 540.000 millones de parámetros.

7:35

Simplemente 8 ejemplos. Solo 8. Demostraciones de problemas resueltos con la técnica de cadena de pensamiento.

7:42

Y con solo eso, el modelo no solo mejoró, sino que alcanzó un rendimiento de vanguardia en ese benchmark,

7:48

superando a modelos que habían sido entrenados específicamente para esa tarea.

7:52

Un momento. Que procese esto. Con solo 8 ejemplos, en el prompt,

7:57

superaron a un modelo que había sido modificado y reentrenado de forma específica y costosa para resolver problemas matemáticos.

8:04

Eso suena casi a trampa.

8:07

Suena a magia. Pero es ciencia. De hecho, el paper destaca que su resultado superó a un modelo como GPT-3

8:14

que había sido ajustado finamente, lo que se conoce como Fine Tuning,

8:18

y que además usaba un verificador externo para comprobar las respuestas.

8:22

Para que quede claro para todo el mundo, cuando hablamos de Fine Tuning o ajuste fino,

8:27

nos referimos a un proceso caro y complejo de reentrenamiento, ¿verdad?

8:31

Es como llevar el coche al taller.

8:33

¿O llevar el coche al taller para modificar el motor y prepararlo para una carrera?

8:37

Es una analogía perfecta. El Fine Tuning es eso.

8:40

Abrir el capó, cambiar piezas, optimizar el motor para un circuito específico.

8:45

Requiere muchísimos datos de entrenamiento, un coste computacional enorme y semanas de trabajo.

8:51

Es un proceso industrial, vamos.

8:53

En cambio, el prompting de cadena de pensamiento es simplemente aprender una nueva técnica para conducir ese mismo coche, sin tocarle un solo tornillo.

9:01

Es descubrir que si tomas las curvas de una manera determinada, eres más rápido que el coche tuneado.

9:06

Entonces, ¿qué significa todo esto?

9:09

Porque las implicaciones son enormes.

9:12

Significa que descubríos que la forma en que pedimos las cosas,

9:16

la forma en que conversamos con la IA, es tan importante como la propia herramienta.

9:21

Completamente. Este paper provocó un cambio sísmico en la comunidad de IA.

9:26

Demostró que no todo consistía en una carrera armamentística de hardware,

9:29

demostró que no todo consistía en una carrera armamentística de hardware,

9:31

sino que había que construir los más y más grandes y alimentarlos con más y más datos.

9:34

También había un camino de eficiencia, de inteligencia en la interacción.

9:39

Fue la validación definitiva del campo que hoy conocemos como Ingeniería de Prompts.

9:44

Pasamos de una carrera de fuerza bruta a una de astucia, por así decirlo.

9:48

Precisamente.

9:50

De repente, un investigador avispado con una buena idea sobre cómo hablar con el modelo

9:55

podía obtener mejores resultados que un gran laboratorio con recursos masivos para hacer fine tuning.

10:00

En cierto modo, niveló el campo de juego.

10:03

Democratizó el acceso a un razonamiento de IA más avanzado.

10:07

Porque la barrera de entrada ya no era sólo tener la máquina más potente,

10:11

sino también tener la mejor idea sobre cómo usarla.

10:14

Recuerdo perfectamente la sensación en la comunidad cuando se publicaron estos resultados.

10:19

Hubo un silencio. Y luego una especie de clic colectivo.

10:24

Alguien dijo, hemos estado haciendo esto mal todo este tiempo.

10:28

Fue un gran momento de humildad.

10:31

Y es una idea que vemos hoy en todas partes.

10:34

Cuando usamos un asistente de IA y le pedimos, explícame esto paso a paso o razona tu respuesta,

10:42

estamos usando un descendiente directo de la técnica que Jason Wei y su equipo presentaron en este paper.

10:48

Se publicó originalmente a principios de 2022, justo en el epicentro de la explosión de la IA generativa.

10:55

Y es una de las piezas clave para entenderlo.

10:58

Por qué los modelos actuales son capaces de hacer lo que hacen.

11:02

Absolutamente. Es uno de los pilares sobre los que se construyen las asombrosas capacidades que vemos hoy.

11:08

La idea de que el razonamiento no es algo que el modelo sabe de forma estática,

11:12

sino algo que hace de forma dinámica cuando se le pida de la manera correcta.

11:17

Es una distinción sutil, pero increíblemente poderosa.

11:21

Resumiendo, si tuviéramos que destilar las ideas clave de este análisis, ¿cuáles serían?

11:26

Yo diría que son tres.

11:28

La primera, los grandes modelos de lenguaje, a partir de cierto tamaño,

11:32

poseen capacidades de razonamiento latentes dormidas.

11:36

La segunda, la técnica de prompting de cadena de pensamiento es la llave que despierta esas capacidades,

11:42

al forzar al modelo a pensar paso a paso.

11:45

Y la tercera, y más importante, este método tan simple demostró ser más eficaz para ciertas tareas

11:51

que técnicas mucho más complejas y costosas.

11:54

Y eso cambió el foco de la investigación.

11:56

Desde la pura escala, hacia la inteligencia en la interacción humana y alta.

12:00

Es una pasada pensar en cómo una idea tan intuitiva pudo tener un efecto dominó tan grande.

12:06

Nos deja con una idea fascinante sobre cómo desbloquear el potencial oculto,

12:11

no sólo en máquinas, sino quizás en muchos otros sistemas.

12:15

Y si esta idea de descubrir habilidades ocultas os parece interesante,

12:19

no os podéis ni imaginar lo que se espera mañana.

12:22

Continuaremos la serie con otro paper que abrió una puerta que muchos en el campo de la tecnología,

12:24

pensaban que estaba cerrada, con llave para siempre.

12:27

Os aseguro que nos dejará indiferentes.

12:29

Y para reflexionar hasta entonces, este trabajo nos deja con una pregunta casi filosófica.

12:33

Si una simple reestructuración de una petición, un simple cambio en la forma de conversar,

12:38

puede desbloquear una capacidad tan compleja y humana como es el razonamiento,

12:42

¿qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,

12:46

aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?

12:50

¿Qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,

12:52

aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?

12:53

Y hasta aquí el episodio de hoy, muchas gracias por tu atención.

13:06

Y hasta aquí el episodio de hoy, muchas gracias por tu atención.

13:21

Esto es BIMPRAXIS, nos escuchamos en el próximo episodio.

E021_Cadena de pensamiento. Desbloqueando el razonamiento de la IA

Episode description

Persons