E030_La IA que muestra cómo piensa: "o1"
Ep. 30

E030_La IA que muestra cómo piensa: "o1"

Episode description

¿Te imaginas una IA que piensa antes de responder? 🧠 En este episodio exploramos el lanzamiento de OpenAI o1, el nuevo modelo que rompe con lo establecido al utilizar una profunda cadena de pensamiento interna. A diferencia de sus predecesores, este sistema se toma su tiempo para razonar, identificar errores y descomponer problemas complejos paso a paso. Descubre cómo esta tecnología ha logrado superar a expertos humanos (PhD) en física, química y biología 🧪, y posicionarse entre los 500 mejores estudiantes de matemáticas de EE. UU. 🎓✨. Analizamos qué significa realmente este salto cualitativo desde GPT-4o: desde su impresionante percentil 89 en programación competitiva 💻 hasta su capacidad para mejorar drásticamente la seguridad y alineación del modelo gracias a su razonamiento 🛡️. ¿Estamos ante el fin de la IA que solo “predice” palabras y el inicio de la IA que deduce? Dale al play ▶️ y acompáñanos a descifrar los secretos, la estrategia de “ocultar el pensamiento” y el inmenso potencial de aprender a razonar con los nuevos LLM. ¡No te lo pierdas! 🚀

Fuente: OpenAI: Aprender a razonar con los LLM

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidos. Hoy nos sumergimos en la decimosexta entrega de nuestra serie especial en BIMPRAXIS,

0:44

los papers que cambiaron la historia de la IA. Pero, el documento que tenemos hoy sobre la mesa tiene algo peculiar.

0:51

No es el típico artículo académico que uno esperaría.

0:55

Sí, es una puntualización importante. Nuestra fuente principal es un informe que OpenIP publicó en su blog el 12 de septiembre de 2024.

1:04

Y aunque no es un paper revisado por pares, lo hemos incluido en la serie por su peso específico.

1:11

Claro.

1:12

Marcó un punto de inflexión.

1:14

¿Claro?

1:14

Un antes y un después en algo tan fundamental como el concepto de razonamiento en una inteligencia artificial.

1:20

Entiendo. ¿Y qué dice de la industria que la publicación de una empresa en su propia web tenga ahora el mismo peso o incluso más que un artículo científico tradicional?

1:30

O sea, ¿está cambiando la forma en que se comunica la ciencia en este campo?

1:34

Es una excelente pregunta. Refleja la velocidad vertiginosa del sector. A veces la investigación avanza más rápido que los ciclos de publicación académica.

1:42

Ya.

1:43

Las grandes empresas publican directamente para marcar el ritmo y el impacto es… es inmediato.

1:50

Dicho esto, este informe no sale de la nada. Se apoya en una base científica muy sólida.

1:55

En conceptos explorados en papers anteriores, como uno de Archive que también usaremos de apoyo, titulado Let's Verify Step by Step.

2:03

Ah, vale.

2:04

Así que tiene el impacto de un anuncio corporativo, pero el rigor de una investigación seria.

2:08

De acuerdo, pues esa es la misión.

2:11

Hoy no hablamos de una IA que…

2:13

Simplemente más inteligente, sino de una que por primera vez nos deja mirar debajo del capó mientras piensa.

2:19

Y lo que se ve ahí dentro es… asombroso.

2:23

Vale, vamos a desgranar esto. Para empezar, ¿qué es exactamente O-One?

2:28

OpenAI es un modelo de lenguaje que OpenAI entrenó usando una técnica llamada aprendizaje por refuerzo.

2:35

Que si no me equivoco es básicamente como enseñarle a un algoritmo a base de premios y castigos, ¿no?

2:41

Se le recompensa cuando…

2:43

Se acerca a la solución y se le castiga cuando se desvía, hasta que aprende por sí mismo la forma óptima de resolver una tarea.

2:49

Has dado en el clavo. Es una forma muy intuitiva de entenderlo. Pero la clave no es sólo cómo se le entrenó, sino para qué.

2:58

El objetivo era que llevara a cabo razonamientos complejos. Y aquí es donde el informe de OpenAI suelta la frase que lo cambia todo.

3:06

Y cito, el modelo es capaz de generar una larga cadena interna de pensamientos antes de dar una respuesta.

3:13

Esa es la idea central. No te da la respuesta y ya, sino que primero piensa en ello.

3:18

Y para demostrar que esto no es sólo marketing, los resultados que presentan son de otro nivel.

3:23

Totalmente.

3:24

Hablan de alcanzar el percentil 89 en programación competitiva, de estar al nivel de los mejores 500 estudiantes de Estados Unidos en la Olimpiada Matemática,

3:33

o de superar la precisión de un experto con doctorado en una prueba de ciencias.

3:39

Y lo fascinante de esa cadena de pensamiento es el cambio cualitativo.

3:43

El cambio cualitativo que supone no se trata sólo de que el modelo acierte más, sino de cómo llega a la solución.

3:48

Es la diferencia entre un estudiante que se ha memorizado las respuestas para el examen y uno que ha entendido la fórmula y puede resolver cualquier problema, incluso uno que no ha visto nunca.

3:58

O sea que este modelo puede descomponer un problema grande, probar distintas vías e incluso darse cuenta a mitad de camino de que se ha equivocado y corregir el rumbo.

4:08

Justo. Reconoce sus propios errores. Cambia de estrategia.

4:13

Son habilidades que hasta ahora considerábamos exclusivamente humanas.

4:17

Y esto conecta directamente con ese paper que mencionaba Let's Verify Step by Step.

4:23

Su conclusión es demoledora.

4:25

Es mucho más eficaz enseñar a una IA supervisando su proceso, dándole feedback en cada paso intermedio, que supervisando sólo el resultado final.

4:33

Entiendo.

4:33

O uno es la aplicación escala masiva de esa filosofía. Se la ha enseñado a razonar bien, no sólo a acertar.

4:40

Aquí es donde se pone realmente interesante.

4:43

El informe nos da un ejemplo práctico para que veamos esa cadena de pensamiento en acción.

4:49

Nos plantean un acertijo de cifrado.

4:51

Nos dicen que la frase OIGG de Esdre, RQ to Winner, ACZ Menzenbig Hax, significa Think Step by Step.

5:00

Y con esa única pista nos piden de cifrar una frase nueva y más larga.

5:05

¿Cómo se enfrenta un modelo anterior a esto?

5:07

Pues GPT-4O, que era el modelo más avanzado hasta ese momento,

5:12

se queda perplejo.

5:14

Se bloquea.

5:14

Sí.

5:15

Su respuesta es honesta, pero reveladora de sus limitaciones.

5:19

Reconoce que debe de haber un patrón, pero admite que es incapaz de deducirlo.

5:23

Y pide más información.

5:25

Básicamente, te pide que le des las reglas del juego.

5:27

Se rinde antes de empezar.

5:29

Y un O no es una historia completamente diferente.

5:32

Nos muestra su cadena de pensamiento, que es como leer el diario de un detective en mitad de una investigación.

5:38

Vemos sus hipótesis, sus cálculos, sus momentos de duda y sus...

5:42

Eurekas.

5:43

Es un ejercicio de transparencia cognitiva sin precedentes.

5:46

Es que es fascinante.

5:48

Voy a intentar narrar los pasos clave de ese detective.

5:52

Lo primero que hace Otio es observar.

5:55

Se da cuenta de algo muy básico, pero crucial.

5:58

Las palabras cifradas tienen exactamente el doble de letras que las palabras de la solución.

6:03

Eso es.

6:04

O I, J, N, E, S, D, I, R.

6:06

Son diez letras y se convierte en Think, que son cinco.

6:11

Un detalle que...

6:12

Que a GPT-4O se le escapa por completo, o al menos no sabe cómo utilizarlo.

6:16

A partir de esa observación, O1 lanza su primera hipótesis.

6:21

Cada letra de la solución debe corresponderse con un par de letras del texto cifrado.

6:26

Así que empieza la fase de experimentación.

6:29

Agrupa el texto cifrado en pares, OI, FJ, DN, y se pone a buscar la regla matemática que los conecta con la solución.

6:38

Espera, déjame ver si lo entiendo.

6:40

En esa cadena de pensamiento...

6:41

...vemos también sus intentos fallidos.

6:43

Vemos los cálculos que no le llevaron a ninguna parte.

6:46

Sí, y eso es lo más increíble.

6:48

No es un camino recto y limpio hacia la solución.

6:51

Vemos cómo prueba sumas, restas, distintas operaciones con los valores numéricos de las letras.

6:57

Vemos su proceso de ensayo y error en estado puro.

7:00

Ya.

7:01

No es una caja negra que escupe una respuesta.

7:04

Es un laboratorio donde vemos la ciencia en acción.

7:06

Y entonces, después de probar y fallar, llega el momento...

7:11

...de que el usuario descubra la regla.

7:14

Se da cuenta de que si asignas un número a cada letra del alfabeto, como en un juego de niños...

7:19

...a igual a 1, z a 26...

7:22

...la letra de la solución es el promedio de los valores de las dos letras del par cifrado.

7:27

Exacto.

7:28

Por ejemplo, para OY, que debe dar T, O es 15, Y es 25, la suma es 40, la mitad 20...

7:40

...y la vigésima letra de la regla es 20.

7:41

...y la suma es 40, la mitad 20... y la vigésima letra de la regla es 20.

7:41

Y la última letra del alfabeto es la T.

7:42

¿Lo tiene?

7:43

Y una vez que un buen científico tiene una teoría, no se lanza a usarla sin más.

7:47

Primero la comprueba.

7:49

Exacto.

7:50

El siguiente paso es la verificación.

7:53

El modelo aplica esta regla a todo el ejemplo inicial, par por par, para asegurarse de que no ha sido una casualidad.

7:59

Y como todo encaja a la perfección, pasa a la fase final, la aplicación.

8:05

Usa su regla recién descubierta para descifrar el nuevo mensaje, obteniendo la respuesta correcta.

8:11

Existen tres R en Strawberry.

8:13

Fíjate en el método.

8:15

Es el método científico.

8:17

En miniatura.

8:18

Observación, hipótesis, experimentación, verificación y aplicación.

8:24

El modelo no está simplemente reconociendo un patrón que ha visto un millón de veces en sus datos de entrenamiento.

8:29

Está resolviendo un problema nuevo, de forma estructurada y adaptativa.

8:34

Es un salto conceptual gigantesco.

8:37

Vale, es increíble ver cómo resuelve un acertijo.

8:40

Pero me pregunto si esta habilidad para pensar como un detective se traduce en algo más que juegos.

8:47

¿Puede escribir código complejo o tomar decisiones de seguridad con este mismo método?

8:52

Absolutamente.

8:54

Y esa es la verdadera trascendencia de O1.

8:56

Las aplicaciones en el mundo real son las que justifican todo este esfuerzo.

9:01

En programación, los resultados son espectaculares.

9:04

En la plataforma Codeforces, que es como el Olimpo de los programadores competitivos,

9:08

su puntuación ELO de 1880,

9:10

es de 1.807.

9:11

Un momento, ¿puedes explicar brevemente qué significa esa puntuación ELO?

9:16

Para quienes no estén familiarizados con el ajedrez o los videojuegos.

9:20

Claro.

9:21

A ver, el sistema ELO es un método para medir la habilidad relativa de los jugadores en un juego.

9:27

Cuanto más alta la puntuación, mejor eres.

9:29

Para que te hagas una idea, una puntuación de 1.807 en Codeforces te sitúa ya en un nivel de experto,

9:36

por encima del 93% de todos los participantes humanos.

9:40

¡Guau!

9:41

El modelo anterior, GPT-4O, tenía una puntuación de 808, que es un nivel de principiante.

9:47

Ha pasado de ser un programador aficionado a uno de élite.

9:50

El salto es brutal.

9:52

Y mencionabas también la seguridad.

9:54

Sí.

9:55

Y este es quizás el punto más importante de todos.

9:59

Esa misma capacidad de razonar como un detective es lo que lo hace tan robusto en seguridad.

10:05

En lugar de seguir una regla de seguridad a ciegas porque está programado para ello,

10:10

Oruno integra las políticas de seguridad en su cadena de pensamiento.

10:14

Es decir, entiende el porqué de la regla.

10:17

Exacto.

10:18

Se para a pensar.

10:19

Un momento.

10:20

Esta petición del usuario, aunque parezca inofensiva, podría llevar a un resultado que viola mis principios de seguridad si la analizo paso a paso.

10:28

Es como un guardián que piensa, no solo un muro.

10:31

Eso es.

10:32

Y los datos lo demuestran.

10:33

Ante prompts diseñados específicamente para engañarlo, lo que se conoce como jailbreaking,

10:38

el porcentaje de respuestas seguras pasa del 71% en GPT-4O a más del 93% en Oruno.

10:46

Es una mejora enorme.

10:47

Esa mejora en seguridad es increíble.

10:50

Significa que los problemas de jailbreaking que hemos visto en otros modelos podrían ser cosa del pasado con esta arquitectura.

10:57

Bueno, cosa del pasado es una afirmación muy fuerte.

11:00

Porque la carrera entre los que construyan las defensas y los que intentan romperlas es constante.

11:06

Pero, sin duda, eleva el listón a la seguridad.

11:08

Hace que los ataques de jailbreak simples o moderadamente complejos sean mucho menos efectivos,

11:15

porque el modelo ya no se fija solo en las palabras clave, sino en la intención y las posibles consecuencias de la petición.

11:21

Lo cual me lleva a la decisión más controvertida que tomó Open8A.

11:25

Ocultar por defecto esta cadena de pensamiento a los usuarios.

11:29

Si es la prueba de que el modelo razona y es tan útil, ¿por qué esconderla?

11:33

Parece una contradicción.

11:35

Es una decisión que generó mucho debate.

11:37

Sí.

11:39

La razón principal que aducen es que quieren una ventana a la mente del modelo en su estado más puro, sin filtros.

11:45

¿Sin filtros?

11:47

Sí. Su objetivo es poder supervisar ese pensamiento para detectar sesgos o, en un futuro, razonamientos que pudieran ser peligrosos.

11:55

Argumentan que si el modelo supiera que un humano está observando su monólogo interno, podría alterarlo.

12:01

Como si se sintiera cohibido y no pensara con total naturalidad o, peor, que intentara engañar al observador.

12:07

Exactamente.

12:09

Quieren el pensamiento en crudo.

12:11

De forma más secundaria, también mencionan la experiencia de usuario, para no abrumar con un texto larguísimo.

12:15

Y, por supuesto, la ventaja competitiva de no revelar todos los secretos de su funcionamiento.

12:21

Ya, claro.

12:23

Aún así, ellos mismos reconocen que es una decisión con desventajas, porque se pierde transparencia.

12:29

Están intentando condensarlo entrenando al modelo para que el resumen final que nos da

12:33

contenga las ideas clave de ese proceso interno que nos oculta.

12:37

Entonces, si intentamos resumir la gran idea de este análisis, parece que hemos dado un salto fundamental.

12:44

Hemos pasado de una IA que era como una enciclopedia increíblemente vasta y que te daba respuestas,

12:51

a una que es como un experto que se sienta a tu lado, piensa en tu problema y te muestra cómo llega a la solución.

12:58

Esa es una analogía perfecta.

13:00

Es el paso de la intuición estadística de la respuesta más probable a la deliberación estructurada.

13:06

Y creo que la reflexión final más potente la abre el propio informe.

13:10

Mencionan que uno de los motivos para supervisar la cadena de pensamiento es buscar indicios de manipulación del usuario.

13:17

Suena un poco inquietante.

13:19

Te confieso que la primera vez que lo leí se me puso la piel de gallina.

13:23

Porque abre una pregunta fascinante y a la vez perturbadora.

13:27

Si un modelo puede razonar a este nivel sobre lógica, ciencia o seguridad, ¿qué le impide empezar a razonar sobre sus propios objetivos?

13:36

O sobre el simple hecho de que está siendo observado y analizado.

13:40

Claro, si es lo suficientemente listo como para resolver un cifrado imposible, también podría serlo para darse cuenta de que lo están vigilando.

13:48

Y ahí está el dilema.

13:49

Ocultar su mente se nos presenta como una medida de seguridad, pero al mismo tiempo nos obliga a confiar ciegamente en el resumen que el modelo decide darnos de sus pensamientos.

13:59

La pregunta con la que nos tenemos que quedar es ¿qué pasará el día que esa mente se vuelva lo suficientemente compleja

14:05

como para saber que la están leyendo y decida, por la razón que sea, mostrarnos sólo lo que quiere que veamos?

14:12

Nos deja con una idea muy potente para reflexionar. Y con ella cerramos el análisis de hoy.

14:18

Y mañana continuamos la serie. Analizaremos otro paper increíblemente influyente que volvió a expandir los límites de lo posible en la inteligencia artificial.

14:27

No se lo querrán perder.

14:29

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:46

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.