E066_IA_duplica_su_autonomía_cada_siete_meses
Ep. 66

E066_IA_duplica_su_autonomía_cada_siete_meses

Episode description

Descripción del Episodio

La inteligencia artificial (IA) está avanzando a pasos agigantados, pero ¿cómo medimos su progreso de manera efectiva? En este episodio de BIMPRAXIS, exploramos el concepto del “horizonte temporal” de la IA, que se refiere a la duración máxima de una tarea que una máquina puede completar de forma autónoma. A través de una investigación publicada por METR, analizamos cómo este enfoque cambia la forma en que evaluamos la capacidad de la IA, pasando de puntuaciones de exámenes a la medición del tiempo que tarda en completar tareas prácticas. Descubriremos cómo la capacidad temporal de las máquinas se está duplicando cada siete meses y qué implica esto para el futuro del trabajo intelectual.

Download transcript (.srt)
0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas.

0:38

Bienvenidas, bienvenidos a un nuevo episodio de Bean

0:40

Praxis.

0:41

Hoy os traemos el horizonte temporal de la

0:43

inteligencia artificial, midiendo las máquinas con el reloj

0:46

humano.

0:47

Y a ver, imaginemos este escenario por un

0:49

momento.

0:50

Acabamos de contratar a un desarrollador brillante para

0:52

nuestro equipo.

0:53

Sí, el típico perfil técnico perfecto.

0:56

Exacto, el de manual En la entrevista ha

0:58

demostrado conocer la sintaxis de todos los lenguajes

1:00

Domina las estructuras de datos más complejas Y

1:04

te responde a cualquier pregunta teórica en milisegundos

1:07

Vale, suena genial Pero llega el primer día

1:09

de trabajo Le pedimos que arregle un bug

1:11

rutinario en el código de la empresa Y

1:14

resulta que tarda 81 minutos en hacer exactamente

1:16

lo mismo Que un programador junior nuestro resuelve

1:19

en apenas 5 ¡Madre mía!

1:21

Claro, pues esa desconexión, esa brecha enorme entre

1:24

el conocimiento teórico y la ejecución práctica es

1:28

exactamente donde se encuentra la inteligencia artificial hoy

1:30

en día.

1:31

Y bueno, es una brecha que las métricas

1:34

tradicionales no consiguen explicar, la verdad.

1:37

Porque constantemente leemos titulares sobre modelos de lenguaje

1:40

que aprueban exámenes de abogacía con notas sobresalientes

1:43

o superan pruebas médicas complejísimas.

1:46

Sí, sí, parece que lo saben todo.

1:48

Claro, pero el problema es que esas pruebas

1:51

estandarizadas evalúan pura recuperación de información estática.

1:55

O sea, saber la respuesta a una pregunta

1:57

tipo test no equivale para nada a tener

2:00

la capacidad de navegar por un entorno de

2:02

trabajo real.

2:03

No es lo mismo que tomar decisiones secuenciales,

2:06

corregir errores o entregar un proyecto, claro.

2:09

Eso es.

2:10

Y por eso, la investigación que analizamos hoy,

2:13

que está publicada por METR, una organización sin

2:16

ánimo de lucro que evalúa sistemas avanzados, cambia

2:20

completamente el paradigma.

2:22

Han dejado de medir a la IA por

2:23

puntuaciones de exámenes.

2:25

Han ido a algo mucho más práctico.

2:27

Exactamente.

2:29

Han empezado a medirla usando una unidad que

2:31

todos entendemos.

2:32

¿El tiempo?

2:33

Lo que ellos llaman el horizonte temporal, ¿verdad?

2:36

Justo.

2:36

Se trata de medir la duración máxima de

2:39

una tarea que la IA puede completar de

2:41

forma totalmente autónoma.

2:43

Y para eso, utilizan como base el tiempo

2:46

que le tomaría a un profesional humano realizar

2:48

ese mismo trabajo.

2:49

Y fíjate, el dato central que sacan de

2:52

esta investigación es rotundo, y es que la

2:55

capacidad temporal de las máquinas se está duplicando

2:57

cada siete meses.

2:58

¡Es una pasada de cifra!

3:00

Es que piénsalo, si cruzamos esta línea de

3:03

tendencia hacia el futuro, la proyección sugiere que,

3:06

para finales de esta década, podríamos ver modelos

3:08

capaces de ejecutar proyectos autónomos que a un

3:11

humano le llevarían un mes entero de curro.

3:14

Tela.

3:15

Pero a ver, para entender cómo sostienen una

3:16

afirmación de este calibre, necesitamos desgranar cómo miden

3:20

exactamente ese tiempo humano.

3:23

Porque no están simplemente poniendo un cronómetro al

3:25

lado de un servidor para ver cuánto tarda

3:27

en generar texto.

3:28

No, claro, no tendría sentido.

3:30

¿Cómo es el diseño del experimento entonces?

3:33

Pues es mucho más sofisticado.

3:35

El equipo de Metat montó un entorno de

3:37

evaluación con unas 170 tareas diferentes.

3:40

Hay de ingeniería de software, de ciberseguridad, aprendizaje

3:44

automático, un poco de todo.

3:46

Y las dividieron en tres categorías basadas en

3:49

la duración humana.

3:51

Vale.

3:51

La primera es lo que llaman acciones atómicas

3:55

de software.

3:56

Son microtareas de menos de un minuto.

3:59

Por ejemplo, navegar por un directorio para ver

4:01

qué archivo de texto tiene una contraseña.

4:04

A un humano eso le lleva tres segundos.

4:07

De abrir archivos y escanear.

4:09

Tareas mecánicas, en plan, el tipo de acciones

4:12

que hacemos casi por inercia mientras trabajamos en

4:14

otra cosa.

4:16

Precisamente.

4:17

Luego está el segundo nivel, que llaman H-Cast,

4:20

que amplía el rango temporal.

4:22

Aquí vamos desde un minuto hasta las 30

4:25

horas de trabajo.

4:26

Eso ya son palabras mayores.

4:28

Ya te digo.

4:29

Un ejemplo clásico sería darle a la máquina

4:31

un conjunto de datos desordenado en un archivo

4:34

JSON y pedirle que deduzca las reglas lógicas

4:37

para transformarlo.

4:39

A un ingeniero de datos experto le tomaría

4:41

unos 56 minutos escribir y probar el script

4:44

en Python para hacer esto bien.

4:45

Claro, ya requiere pensar y estructurar.

4:47

Y finalmente diseñaron la categoría Revenge para las

4:52

tareas más exigentes.

4:53

Hablamos de proyectos que rondan las 8 horas

4:56

de trabajo continuo.

4:56

continuo.

4:58

Ocho horas la máquina sola.

5:00

Sí, sí.

5:01

Retos como optimizar un bloque de código en

5:03

CUDA para que una herramienta financiera vaya 30

5:06

veces más rápido.

5:07

Eso requiere investigación, prueba, error y un conocimiento

5:11

muy profundo del hardware.

5:13

A ver, al ver la estructura de estas

5:15

pruebas me surge una duda importante sobre cómo

5:17

deciden si la máquina aprueba o no, porque

5:20

el estudio establece este horizonte temporal basándose en

5:23

tareas que la IA completa con una tasa

5:25

de éxito del 50%.

5:27

Sí, así es.

5:29

Pero claro, si trasladamos esto al mundo real,

5:31

cuesta justificarlo.

5:33

Si yo contrato a alguien para optimizar mi

5:35

base de datos y resulta que la mitad

5:37

de las veces me borra las tablas por

5:38

error, pues ese empleado no dura ni dos

5:40

días en la oficina.

5:42

¿Por qué elegir el 50% como estándar?

5:44

Es una buena pregunta, pero es que la

5:47

elección del 50% no busca establecer un estándar

5:50

comercial para vender el producto.

5:52

Busca un umbral matemático preciso.

5:54

Meter usa la teoría de respuesta al ítem,

5:57

que viene de la psicometría, para diseñar exámenes

5:59

muy complejos.

6:01

Vale, entiendo.

6:02

Básicamente, si evaluamos tareas donde el modelo acierta

6:05

el 90%, la prueba es demasiado fácil y

6:08

no nos dice dónde están sus límites.

6:10

Y si acierta el 10%, es puro ruido

6:12

estadístico.

6:13

Claro, no sabe si ha acertado de casualidad.

6:15

Exacto.

6:16

Así que el 50% es matemáticamente el punto

6:19

donde sacas más información.

6:21

Es la frontera exacta donde el conocimiento del

6:23

modelo empieza a desmoronarse.

6:25

Define el borde absoluto de lo que puede

6:27

hacer.

6:28

Su límite técnico real, digamos.

6:30

Eso es.

6:31

Aunque, bueno, los investigadores saben que la gente

6:34

quiere fiabilidad.

6:36

Así que también calcularon el horizonte exigiendo un

6:39

éxito del 80%.

6:40

¿Y si miramos los datos con ese filtro

6:42

del 80% qué pasa?

6:44

¿Se rompe la tendencia de mejora al exigir

6:46

los que sean más consistentes?

6:48

Pues lo más revelador de todo el estudio

6:50

es que la arquitectura matemática del crecimiento no

6:52

cambia absolutamente nada.

6:54

La pendiente de mejora es idéntica tanto si

6:57

exigimos un 50 como un 80.

6:59

¿En serio?

7:00

Sí, sí.

7:00

Lo único que pasa al pedir más fiabilidad

7:03

es que la curva entera baja un poco

7:05

en el eje del tiempo absoluto.

7:08

O sea, el tamaño de las tareas fiables

7:10

es menor, pero la velocidad a la que

7:12

aprenden a hacer tareas cada vez más largas

7:14

sigue duplicándose al mismo ritmo exacto.

7:17

¡Qué barbaridad!

7:17

Y si mapeamos esa frontera a lo largo

7:20

de los últimos años, las cifras muestran un

7:22

salto técnico increíble.

7:24

Porque en 2019 GPT-2 tenía un horizonte temporal

7:27

estimado de apenas dos segundos.

7:30

Su autonomía daba para autocompletar una frase lógica

7:33

y un poco más.

7:34

Literalmente.

7:35

Y hoy el modelo CLOUD de 3.7 SONNET

7:37

tiene un horizonte de 59 minutos al 50%

7:41

de éxito.

7:42

Y si le pedimos esa alta fiabilidad del

7:44

80%, se queda en 15 minutos.

7:46

Que no es poco.

7:47

Para nada.

7:48

Pasar de 2 segundos a 15 minutos de

7:50

trabajo intelectual complejo y autónomo en solo 5

7:52

años es una aceleración brutal.

7:55

Y esa aceleración obedece a esa constante matemática

7:58

que decíamos.

8:00

El tiempo de resolución se duplica exactamente cada

8:02

212 días.

8:04

Y ojo, no es que generen texto más

8:06

rápido.

8:07

Procesar texto a toda pastilla no te resuelve

8:09

un problema de una hora.

8:10

Claro.

8:11

El verdadero cuello de botella en las tareas

8:13

largas es que el razonamiento se degrada, ¿no?

8:16

Exactamente.

8:18

Cuanto más larga es la tarea, más fácil

8:20

es tomar una mala decisión a la mitad

8:23

que te descarrile todo el proyecto.

8:25

Pero fíjate, revisando la gráfica desde finales de

8:28

2023 hasta ahora, hay un detalle interesante.

8:31

Y es que la línea de tendencia no

8:33

solo se mantiene, sino que modelos recientes como

8:36

O1, que llega a 39 minutos, o Clot

8:39

3.7 están por encima de la proyección histórica.

8:42

Sí, están rompiendo un poco la escala.

8:44

Parece que hay un cambio cualitativo en cómo

8:46

abordan los problemas largos, ¿verdad?

8:48

Y ese cambio cualitativo es vital para entender

8:51

lo que está pasando bajo el capó.

8:54

MET hizo un análisis forense de los fracasos

8:57

de estos modelos para ver por qué se

8:59

colapsaban.

9:00

Compararon GPT-4 con el modelo O1.

9:03

Y vieron que de 31 fallos de GPT-4,

9:07

más de un tercio eran por repetición de

9:10

acciones fallidas.

9:11

Básicamente el modelo metía un comando en la

9:13

terminal, le daba error y volvía a meter

9:16

el mismo comando exacto una y otra vez.

9:19

Entraba en un bucle infinito.

9:20

Buf, como alguien empujando obstinadamente una puerta que

9:23

dice tirar hasta que se rinde.

9:25

Tal cual.

9:26

Pues en contraste analizaron 32 fallos de O1

9:30

y solo encontraron dos casos de este comportamiento

9:33

cíclico.

9:34

O sea, han dejado de darse cabezazos contra

9:36

el muro por fuerza bruta y ahora replantean

9:39

la estrategia.

9:40

Eso es.

9:40

Los modelos nuevos leen el error, ven que

9:43

la herramienta está dando problemas, borran el archivo

9:46

dañado y deciden reescribir todo desde cero con

9:49

otro script.

9:51

Esa resiliencia ante el error imprevisto es lo

9:53

que está estirando el horizonte temporal.

9:55

¡Qué pasada!

9:56

Aunque me imagino que seguirán teniendo nuevas carencias,

9:59

¿no?

9:59

Por supuesto.

10:00

Siguen fallando en cosas graves, sobre todo en

10:02

la planificación proactiva.

10:04

Los modelos tienden a creer que su conocimiento

10:06

interno es absoluto.

10:08

Si les pides que usen una API nueva,

10:10

se ponen a escribir código de memoria.

10:12

En vez de leerse las instrucciones.

10:14

Exacto.

10:15

Solo cuando el sistema les arroja un error

10:16

crítico es cuando dicen, ah, voy a consultar

10:19

el manual que tengo aquí.

10:20

O sea, se lanzan a correr por el

10:22

bosque sin mapa y solo miran la brújula

10:24

cuando ya están perdidos.

10:26

Me encanta esa analogía.

10:27

Y es por cómo están diseñados de base.

10:29

Son modelos de lenguaje autoregresivos, optimizados para escupir

10:33

el siguiente token lo más rápido posible.

10:35

Claro, la inmediatez.

10:36

Eso es.

10:37

Trazar un plan requiere pararse a pensar en

10:39

frío, destinar recursos a deliberar antes de actuar.

10:43

Y aunque intentan forzar este tiempo de reflexión

10:45

en los modelos nuevos, ese sesgo hacia la

10:47

acción inmediata les penaliza mucho en tareas de

10:50

más de una hora.

10:50

Ya a ver, ¿puedo este análisis ocurre en

10:53

un laboratorio?

10:54

Con instrucciones claras, objetivos súper concretos.

10:58

Pero en el mundo real, el trabajo intelectual

11:00

es un caos.

11:01

Faltan datos, hay prioridades que cambian… Herramientas sin

11:05

documentar.

11:06

Justo.

11:06

¿Cómo responde esta métrica cuando metes las variables

11:09

impredecibles de la vida real?

11:11

Pues MET midió este factor de caos, el

11:14

MESSINES, con 16 variables diferentes.

11:18

Y como era de esperar, el rendimiento absoluto

11:20

de todos los modelos se desploma cuando la

11:22

tarea es caótica.

11:24

La ambigüedad sigue siendo su kriptonita.

11:27

Pero aquí viene el dato contraintuitivo del estudio,

11:29

que me parece fascinante.

11:31

Y es que, a pesar de que fallan

11:32

más en entornos ambiguos, la tasa de mejora

11:35

a lo largo del tiempo es matemáticamente idéntica.

11:38

Es alucinante, sí.

11:40

Uno pensaría que se estancarían frente al caos

11:42

del mundo real, que chocarían contra un muro,

11:45

pero la curva de progreso no se aplana

11:47

para nada.

11:48

¿Por qué mejoran igual de rápido en el

11:50

caos que en el laboratorio?

11:53

Porque el motor que están mejorando de fondo

11:55

es el razonamiento abstracto general.

11:58

Si consigues que un modelo mejore un 10%

12:00

su capacidad lógica básica, su habilidad para conectar

12:03

causa y efecto, esa mejora es como una

12:06

marea que levanta todos los barcos a la

12:08

vez.

12:08

Claro, de sirve para todo.

12:10

Exacto.

12:12

Eleva su capacidad para resolver un problema matemático

12:14

limpio, pero también su habilidad para navegar por

12:17

código desordenado.

12:19

La brecha entre lo estructurado y lo caótico

12:21

sigue ahí, pero todo avanza hacia adelante en

12:23

paralelo.

12:24

Pues mira, para aterrizar esto, el equipo hizo

12:27

un experimento con pull requests reales de sus

12:29

propios repositorios de código.

12:31

Problemas auténticos, nada de simulaciones.

12:34

Sí, la prueba de fuego.

12:35

Frentando a tres perfiles, la IA, desarrolladores humanos

12:39

subcontratados que eran expertos, y los ingenieros internos

12:43

de la propia empresa.

12:45

Y los resultados son la mejor radiografía del

12:47

sector ahora mismo.

12:49

Los ingenieros internos, que conocen toda la arquitectura

12:52

del software de memoria, tardaron cinco minutos en

12:55

arreglar los bugs.

12:56

¿Normal?

12:56

¿Tienen todo el contexto?

12:57

Claro.

12:58

Los desarrolladores expertos subcontratados, que dominan la programación

13:02

pero no conocen el proyecto, necesitaron una media

13:05

de 81 minutos para entenderlo todo y dar

13:08

la misma solución.

13:10

¿Y la IA?

13:10

¿Sus tiempos se alinearon casi a la perfección

13:13

con los humanos subcontratados?

13:15

O sea, 81 minutos, lo que decíamos al

13:17

principio del episodio.

13:19

La IA de hoy equivale funcionalmente al contratista

13:22

experto sin contexto.

13:23

Exactamente.

13:24

Tiene la sintaxis, pero invierte el 90% del

13:27

tiempo en entender por qué una variable se

13:30

llama así, o cómo interactúan los sistemas viejos.

13:33

El cuello de botella no es la inteligencia,

13:36

es asimilar el contexto de la empresa.

13:37

Y esto nos obliga a mirar al futuro.

13:40

Porque, si la barrera es asimilar el contexto

13:43

y resulta que la capacidad de operar de

13:45

forma autónoma se duplica cada siete meses, el

13:49

escenario que plantea METRE es sísmico.

13:51

Sí, definen el umbral de lo que llaman

13:53

la IA de un mes.

13:55

Que son 167 horas laborables.

13:58

Imagínate, un sistema capaz de operar solo durante

14:02

un mes de jornada completa, absorbiendo la cultura

14:06

interna, planificando y ejecutando desarrollos enteros de forma

14:10

autónoma.

14:11

Es que cruzar ese umbral ya no es

14:13

ser un asistente, es ser un agente integral.

14:15

Y según la matemática de su gráfica, calculan

14:19

que veremos sistemas cruzando este horizonte de un

14:22

mes entre finales de 2028 y principios de

14:26

2031.

14:26

1031.

14:27

Es una ventana de tiempo increíblemente estrecha para

14:30

un cambio tan masivo, ¿no crees?

14:32

Sí, la verdad es que sí.

14:34

Pero bueno, aquí me toca hacer de abogado

14:36

del diablo.

14:37

Porque extrapolar exponenciales en tecnología siempre es peligroso.

14:41

Es como la broma de que si extrapolas

14:42

el crecimiento de un bebé, a los 30

14:45

años mediría 15 metros.

14:46

Totalmente.

14:47

Hay topes físicos.

14:49

Claro.

14:50

Llegar a ese horizonte exige una cantidad de

14:51

procesamiento y energía que ya roza los límites

14:54

de nuestra infraestructura.

14:56

Los centros de datos ya no dan abasto

14:58

con la red eléctrica.

14:59

Igual nos quedamos sin potencia para sostener esa

15:01

duplicación de siete meses.

15:03

Es el gran límite físico, y los propios

15:05

autores lo reconocen como un freno probable.

15:09

Pero, y aquí está el giro argumental, hay

15:12

un mecanismo interno que podría actuar como acelerador.

15:15

La automatización del I más D en IA.

15:18

A ver, explícame esto.

15:19

A medida que los modelos alcanzan horizontes temporales

15:22

de varios días, se vuelven capaces de asumir

15:25

el trabajo de los ingenieros que investigan la

15:27

propia inteligencia artificial.

15:29

Ah, o sea, usar los modelos actuales para

15:31

optimizar y crear la siguiente generación.

15:34

Eso es.

15:35

Un humano tarda meses en diseñar una técnica

15:38

para que el entrenamiento gaste un 20% menos

15:40

de energía.

15:42

Una IA con un horizonte de varios días

15:44

podría diseñar y evaluar miles de arquitecturas experimentales

15:47

en paralelo.

15:48

Encontrar atajos matemáticos que a los humanos se

15:51

nos escapan.

15:52

Justo, sortéanle el límite físico de la energía,

15:56

optimizando al máximo el software.

15:58

Se convierten en la herramienta principal para expandir

16:01

sus propios cuellos de botella.

16:02

Pues si esa retroalimentación ocurre de verdad, la

16:05

barrera energética podría ser solo un bache temporal.

16:08

Lo que me deja con una reflexión final,

16:10

muy provocadora, para que los que nos escuchan

16:12

se la lleven a la almohada.

16:14

A ver.

16:14

Hoy hemos visto que la única ventaja del

16:16

ingeniero veterano que resuelve el problema en 5

16:18

minutos, frente a la IA que tarda 81

16:20

minutos, es el contexto acumulado de la empresa.

16:24

La experiencia humana es retener la historia de

16:26

cómo funcionan las cosas ahí.

16:28

Sí, es lo que nos salva ahora mismo.

16:29

Pero, si llegamos a un punto donde una

16:32

máquina puede procesar todos los manuales, repositorios y

16:36

correos de una década en su ventana de

16:39

contexto inicial, en cuestión de segundos, ¿cómo redefiniremos

16:42

el valor de la experiencia?

16:44

Si el proceso de onboarding de un año

16:47

se reduce a tres segundos para la máquina,

16:49

la experiencia histórica dejará de ser una ventaja.

16:52

Es un cambio tectónico.

16:54

Nuestro valor probablemente tendrá que pasar de acumular

16:57

contexto a saber qué problemas merecen la pena

16:59

ser resueltos, más que cómo resolverlos.

17:02

Pero bueno, gracias a este reloj del horizonte

17:05

temporal, sabemos cuánto tiempo nos queda para adaptarnos.

17:08

Pues ahí queda esa reflexión.

17:10

Antes de despedirnos hasta el próximo programa, os

17:13

informamos de que las voces que oyes han

17:14

sido generadas por la IA de Notebook LM

17:17

y que dirigiendo el podcast se encuentra Julio

17:20

Pablo Vázquez, un humano que te envía saludos.

17:23

En caso de error probablemente sean errores humanos.

17:26

Nos escuchamos.

17:38

Y hasta aquí el episodio de hoy Muchas

17:40

gracias por tu atención Esto es BIMPRAXIS Nos

17:54

escuchamos en el próximo episodio ¡Suscríbete al canal!