E019_El aprendizaje con pocos ejemplos (Few-shot learners)
Ep. 19

E019_El aprendizaje con pocos ejemplos (Few-shot learners)

Episode description

🧠 ¿Te has preguntado por qué a los humanos nos basta con un par de ejemplos para aprender algo nuevo, mientras que la IA tradicional necesitaba miles de datos? En este episodio exploramos el paper fundacional que transformó para siempre el Procesamiento del Lenguaje Natural: “Language Models are Few-Shot Learners”. Descubre la arquitectura detrás de GPT-3, el modelo que, con sus colosales 175 mil millones de parámetros (10 veces más que sus predecesores), rompió todos los esquemas demostrando que una inteligencia artificial puede ser generalista y competente sin necesidad de costosos reentrenamientos específicos (fine-tuning). 🚀 🎙️ Acompáñanos a analizar cómo este modelo logra hazañas sorprendentes simplemente recibiendo instrucciones de texto: desde traducción y corrección gramatical, hasta resolver aritmética de tres cifras 🧮 y generar artículos de noticias que los evaluadores humanos apenas pueden distinguir de la realidad. Desglosamos qué significa realmente el aprendizaje few-shot (de pocos intentos) y por qué la capacidad de GPT-3 para adaptarse “al vuelo” a nuevas tareas marcó el inicio de la era moderna de la IA Generativa. ¡Dale al play para entender los cimientos de la revolución tecnológica actual! 🌐✨ Fuentes y enlaces: • Paper original en arXiv: Language Models are Few-Shot Learners

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidas y bienvenidos a una nueva entrega de nuestra serie especial,

0:42

los papers que cambiaron la historia de la IA.

0:45

Una serie que, la verdad, nos está descubriendo los cimientos de todo lo que vemos hoy.

0:50

Totalmente. Y hoy, bueno, hoy vamos a analizar un artículo publicado en 2020,

0:55

que no solo movió los cimientos, sino que, vamos, prácticamente dibujó el mapa del territorio que pisamos ahora.

1:02

El título es Language Models are Few Shot Learners.

1:05

Que en buen español sería algo así como, los modelos de lenguaje son aprendices de pocos ejemplos.

1:11

Un título que suena casi modesto, ¿no?

1:13

Sí, suena muy académico.

1:15

Muy contenido. Pero en realidad es el manifiesto de una revolución que estaba a punto de estallar.

1:21

Desde luego. Y para que nos hagamos una idea de la escala, solo hay que ver la lista de autores.

1:26

La encabeza Tom B. Brown. Pero es que le siguen 30 coautores más. O sea, un proyecto monumental.

1:32

Treinta. Ya te dice algo del esfuerzo que hubo detrás.

1:35

Nuestra misión hoy es desgranar cómo este paper demostró que un modelo de lenguaje podía aprender una tarea nueva

1:43

con solo...

1:45

Unas pocas instrucciones. Sin un reentrenamiento complejo.

1:49

Que ese era el gran cambio.

1:50

Exacto. Es el paso de la IA que es súper especialista a una IA que empieza a ser mucho más generalista.

1:56

Para entender bien el salto, creo que es vital que nos pongamos en situación.

2:01

Pensamos en el mundo de la IA justo antes de 2020.

2:04

El método estándar, el paradigma, era lo que se conocía como fine tuning.

2:09

El ajuste fino. Me suena el concepto, pero ¿cuál era la barrera real?

2:15

Era de dinero, de tiempo o algo más de fondo.

2:18

Pues era una mezcla de todo eso. El proceso era más o menos así.

2:22

Tú cogías un modelo de lenguaje grande, uno preentrenado con casi todo internet para que entendiera el lenguaje en general.

2:29

Vale.

2:29

Pero para que hiciera algo útil, algo específico, como, no sé, clasificar si un comentario es tóxico o no,

2:36

tenías que especializarlo.

2:38

Ahí entraba el fine tuning.

2:39

Ahí entraba. Y para hacer ese ajuste fino, necesitabas crear un nuevo conjunto de datos.

2:45

A veces miles o incluso decenas de miles de ejemplos, que además tenían que ser etiquetados a mano.

2:50

O sea que para cada nueva habilidad, por pequeña que fuera,

2:54

tocaba empezar un proceso de entrenamiento que era largo y, supongo, carísimo.

2:58

Exacto. Era como tener un genio increíblemente listo, pero al que, para pedirle un café,

3:03

tenías que enseñarle antes mil fotos de tazas, mil de cafeteras. Era muy poco práctico.

3:09

Claro.

3:10

La gran frustración era ese abismo que lo separaba de cómo aprendemos los humanos.

3:15

Entonces, a la persona le das un par de ejemplos de una nareama y lo pilla.

3:18

Lo pilla al vuelo.

3:19

Eso es. Las máquinas, hasta ese momento, necesitaban esa fuerza bruta de datos para cada pequeña cosa.

3:26

De acuerdo. El escenario está claro. Una IA muy potente, pero también muy torpe,

3:30

que necesitaba que la llevaran de la mano. Y entonces llega este paper y propone una solución

3:36

que es, bueno, brutalmente simple en su concepto.

3:39

Pero extraordinariamente compleja en su ejecución.

3:41

Aquí es donde se pone muy interesante.

3:44

La solución fue la escala. Una escala, vamos, demencial.

3:48

Una escala que en aquel momento sonaba a ciencia ficción pura y dura.

3:52

El paper nos presenta formalmente a GPT-3, un modelo de lenguaje autoregresivo.

3:57

Que, para entendernos, funciona prediciendo la siguiente palabra, como un autocompletar, pero a lo bestia.

4:04

A lo bestia es poco. 175.000 millones de parámetros.

4:08

El propio texto lo recalca, 10 veces más que cualquier modelo denso anterior.

4:13

El salto no fue un paso más. Fue, como dices, cambiar de liga completamente.

4:20

Pero claro, la pregunta del millón es, si no usaban fine tuning,

4:24

¿cómo demonios le decían al modelo qué es lo que tenía que hacer?

4:28

Y ahí, justo ahí, está la verdadera magia. El cambio de paradigma.

4:33

Lo que propusieron fue interactuar con el modelo usando solo texto, lo que ahora llamamos prompt.

4:39

La instrucción.

4:40

Exacto. En lugar de reentrenarlo, le demostraron que no se podía hacer nada.

4:43

Le demostraban lo que querían que hiciera al vuelo, en la propia conversación.

4:47

Y esto, que es lo más importante, sin actualizar sus pesos.

4:51

O sea, sin cambiar su conocimiento interno.

4:53

Eso es. La diferencia es cómo hablar con un experto, para que resuelva un problema nuevo usando lo que ya sabe,

5:01

en vez de mandarlo otra vez a la universidad a estudiar una carrera nueva.

5:04

Entiendo. El conocimiento ya está ahí, latente. Y la clave es saber cómo preguntarle.

5:10

Esa es la idea fundamental.

5:13

Bueno, el paper explora tres formas de hacerlo.

5:16

La primera es zero-shot, que es darle la instrucción a secas.

5:20

Traduce esto al francés. Directo.

5:23

Luego está el one-shot, con un solo ejemplo.

5:25

Traducir.

5:27

Sea otter igual a l'outre de mer.

5:30

Cheese igual.

5:31

Y la tercera, la que le da nombre al paper.

5:34

Few-shot, que es darle un puñado de ejemplos.

5:37

Diez, veinte, para que pille el patrón.

5:39

Y esto lo llaman task agnostic, ¿no?

5:42

Agnóstico a la tarea.

5:43

Sí, porque al modelo le da igual si le pides traducir, que resumir, que escribir un poema.

5:48

Su comprensión es tan general que se puede adaptar sobre la marcha.

5:51

Y demostraron que funcionaba para tareas que hasta ese momento necesitaban un modelo súper especializado,

5:57

como la traducción o responder preguntas.

6:00

Y funcionaba sorprendentemente bien.

6:03

En muchas de estas tareas, el rendimiento de GPT-3 en modo few-shot,

6:08

sin entrenamiento específico, se acercaba peligrosamente al de los modelos de vanguardia

6:13

que sí habían sido ajustados para esa única tarea.

6:16

Era la prueba de que la escala, por sí sola, podía sustituir a la especialización.

6:22

Exacto, la primera prueba sólida.

6:24

Pero lo que a mí me dejó boquiabierta cuando leí el resumen no fueron esas tareas,

6:29

que, bueno, más o menos te las esperas de un modelo de lenguaje.

6:32

Fueron las otras capacidades, las que parecían emergentes, casi inesperadas.

6:39

Es que ahí la historia pasa de ser un avance técnico,

6:41

a ser algo que no se puede hacer.

6:42

A ser algo que roza lo filosófico, casi.

6:45

Totalmente.

6:46

Citan en el paper que GPT-3 podía, sólo con unos pocos ejemplos,

6:51

descodificar palabras, o sea, resolver anagramas.

6:54

Sí, podía coger una palabra completamente inventada

6:57

y usarla de forma coherente en una frase.

7:00

Y, la que yo creo que rompió muchos esquemas,

7:02

podía hacer operaciones aritméticas de tres dígitos.

7:06

La aritmética.

7:07

Ese fue un punto de inflexión.

7:09

Es que eso no me encaja.

7:11

¿Por qué es tan importante la aritmética?

7:12

¿Por qué es tan importante la aritmética en un modelo de lenguaje?

7:14

Es una pregunta clave.

7:16

Lo revelador no es que acertara siempre, que de hecho no lo hacía.

7:19

Su precisión no era ni mucho menos perfecta.

7:21

Lo increíble es que parecía haber aprendido las reglas de la aritmética

7:25

a partir de puro texto.

7:26

Sin ser programado para ello.

7:28

Sin ser programado para ello.

7:30

¿Piensa que el modelo sólo ha visto secuencias de letras y números en Internet?

7:34

¿Ha visto 2 plus 2 y luego el carácter 4?

7:38

Millones de veces, sí.

7:40

Pero también ha visto problemas de mate,

7:42

artículos de ciencia.

7:43

Entonces, ¿no es que memorizara las respuestas?

7:47

No, porque podía resolver operaciones que casi con total seguridad no había visto nunca.

7:53

Esto sugirió que el modelo no era sólo un loro estocástico, como decían algunos críticos.

7:58

Que no sólo repetía patrones.

8:00

No.

8:01

Sugería que estaba desarrollando representaciones internas, abstractas,

8:05

donde los conceptos 2, más y 4 estaban conectados de una forma lógica.

8:11

El propio paper lo llama la lógica.

8:12

El propio paper lo llama la lógica.

8:13

El propio paper lo llama la lógica.

8:14

El propio paper lo llama la lógica.

8:15

Y lo que dejó de ser un sistema entrenado sólo para predecir la siguiente palabra, desarrollara

8:18

de repente una habilidad matemática, aunque fuera rudimentaria, fue la verdadera bomba.

8:24

La primera señal de que la escala masiva desbloqueaba cosas nuevas.

8:27

La primera señal de que la escala masiva desbloqueaba cosas nuevas.

8:28

Porque los autores no se dejaron llevar por el triunfalismo, ni mucho menos.

8:31

Ah, ¿no?

8:32

No.

8:33

Dedican una parte importante a señalar, de forma muy explícita, donde fallaba.

8:37

Por ejemplo, en tareas de síntesis de texto o inferencia, GPT-3 es una forma de señalar

8:40

donde fallaba.

8:41

GPT-3 en modo few-shot todavía rendía peor que los modelos con fine-tuning. No era una panacea.

8:47

O sea, que admitieron sus propias limitaciones.

8:50

Y no solo eso. También fueron muy honestos sobre los problemas metodológicos. Admitieron

8:55

que al entrenar con un corpus tan vasto como Common Crawl, que es una copia de una parte

8:59

gigante de Internet, era posible que se hubieran filtrado ejemplos de los tests,

9:04

inflando un poco los resultados.

9:05

Esa honestidad es importante en la ciencia. Es crucial. Y lo más premonitorio de todo

9:11

fue que hablaron de los problemas de aprender de la web. Los sesgos, la toxicidad, la desinformación

9:17

que el modelo, inevitablemente, iba a absorber. Un aviso para navegantes que, visto ahora,

9:23

era increíblemente necesario. Y hablando de consecuencias, llegamos al resultado que

9:29

probablemente fue el más impactante, el que saltó a los titulares de todo el mundo.

9:33

El momento en el que el público

9:35

general y también muchos políticos y reguladores empezaron a prestar atención de verdad.

9:40

El hallazgo de que GPT-3 podía generar artículos de noticias y que los humanos teníamos serias

9:47

dificultades para distinguirlos de los escritos por personas. Pero ¿hasta qué punto eran

9:52

convincentes? Los resultados que presentaron eran alarmantes. Hicieron un estudio con evaluadores

9:59

humanos. Les daban un artículo corto de unas 200 palabras y tenían que decir,

10:05

¿corona o IA? La precisión media de los humanos fue de solo el 52%.

10:10

¿52? ¿Eso es, vamos, lanzar una moneda al aire? Básicamente. Eran indistinguibles en la práctica.

10:20

Recuerdo leer uno de esos primeros artículos, sobre una cumbre económica ficticia. Era tan

10:26

plausible, con citas inventadas, datos coherentes, que estuve cinco minutos buscando la noticia en

10:32

Google antes de asumir que era falsa. ¡Qué fuerte!

10:35

Fue un momento escalofriante, la verdad. De repente, la idea de la desinformación a escala

10:40

industrial dejó de ser una teoría para ser una posibilidad técnica inminente.

10:45

Entonces, ¿qué significa esto? Que de la noche a la mañana teníamos una herramienta capaz de

10:50

crear contenido coherente a una escala inimaginable. Y eso abre un universo de

10:54

posibilidades, pero también un campo de minas ético.

10:57

Y lo más destacable, volviendo al paper, es que los autores no evitaron esa conversación. Al

11:03

contrario, la provocaron ellos mismos.

11:05

Ah, sí.

11:06

Sí. El artículo dedica una sección entera a discutir los impactos sociales más amplios de su propia creación. No se lavaron las manos.

11:14

¿Y qué tipo de riesgos mencionaban? Fueron muy directos. Hablaron del potencial para el bien, claro. Pero enumeraron los riesgos. Desinformación, spam, suplantación de identidad, radicalización con propaganda personalizada. Vamos, que lo pusieron todo sobre la mesa.

11:31

Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

11:35

Y una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

11:36

Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

11:42

Vale, si tuviéramos que empaquetar el legado de este paper en una sola idea, ¿cuál sería?

11:48

Es una buena pregunta.

11:50

Para mí, la gran conclusión es que Language Models are Few Short Learners demostró que la escala no era sólo más de lo mismo. La escala podía desbloquear capacidades cualitativamente nuevas y un paradigma de interacción, el del prompting, muy pequeño y muyใชto.

12:05

Mucho más flexible, mucho más potente.

12:07

Sí, fue el pistoletazo de salida para la era de los grandes modelos fundacionales.

12:12

Totalmente. Los que dominan por completo el panorama actual.

12:16

Es una síntesis perfecta.

12:18

Y si tuviera que añadir una reflexión final, una idea para que la audiencia se quede dándole vueltas, sería esta.

12:24

El paper demostró empíricamente ese viejo dicho militar de que la cantidad tiene una calidad propia.

12:30

Me gusta esa frase.

12:31

Pero al hacerlo, abrió una auténtica caja de Pandora.

12:34

Planteó preguntas fundamentales que apenas hemos empezado a responder.

12:38

Preguntas sobre la naturaleza de la inteligencia.

12:41

Si esto es un destello de comprensión real o un espejismo estadístico muy sofisticado.

12:45

Claro.

12:46

Preguntas sobre la creatividad artificial y sobre todo sobre la verdad de la información en esta era.

12:52

No fue solo un avance en computación.

12:54

Fue el inicio de un debate social, filosófico y ético que sigue y seguirá muy vivo.

13:00

Un debate que, sin duda, está definiendo nuestro presente.

13:03

Y hablando de avances que desataron debates y nuevas realidades,

13:08

mañana continuamos nuestra serie, los papers que cambiaron la historia de la IA.

13:13

El viaje no ha hecho más que empezar.

13:15

Y el de mañana es fascinante.

13:18

Mañana nos adentraremos en el paper

13:19

The Noising Diffusion Probabilistic Models de Jonathan Ho, a Jay Jane y Peter Avil.

13:26

Un nombre que quizás no le suene a todo el mundo.

13:29

Puede que el nombre no suene familiar, pero su impacto es innegable.

13:33

Sin este paper, la explosión de arte generativo que hemos visto simplemente no habría ocurrido.

13:39

Una cita ineludible.

13:52

Y hasta aquí el episodio de hoy.

13:55

Muchas gracias por tu atención.

14:06

Esto es BIMPRAXIS.

14:08

Nos escuchamos en el próximo episodio.