E028_Abrir el capó de Claude Sonnet
Ep. 28

E028_Abrir el capó de Claude Sonnet

Episode description

¿Alguna vez te has preguntado qué “piensa” realmente una IA antes de responderte? 🧠 En este episodio nos adentramos en la fascinante investigación de Anthropic sobre Claude 3 Sonnet, donde han logrado abrir la “caja negra” de las redes neuronales a gran escala. 🔓 Utilizando una técnica llamada Sparse Autoencoders, los investigadores han extraído millones de características interpretables, creando un mapa detallado de la mente del modelo. Descubriremos cómo han identificado neuronas específicas para conceptos tan variados como el Golden Gate Bridge 🌁, errores de programación sutiles 💻, e incluso abstracciones complejas como la ironía o la poesía. 🤯 Pero lo más sorprendente no es solo ver estas características, sino controlarlas. 🎛️ Analizaremos cómo este avance permite “sintonizar” el comportamiento del modelo, amplificando o suprimiendo rasgos vinculados a la adulación, el engaño 🤥 o el conocimiento peligroso sobre armas biológicas ☣️. Es un paso crucial para la seguridad de la IA, permitiéndonos entender y mitigar riesgos ocultos antes de que ocurran. 🛡️ Dale al play para explorar cómo la interpretabilidad mecánica está cambiando las reglas del juego y qué sucede realmente cuando obligas a una IA a obsesionarse con un puente. 🌉✨ Fuentes relevantes: • Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidas y bienvenidos. Continuamos con nuestra serie para BIMPRAXIS sobre los trabajos que están, bueno, que están redefiniendo la inteligencia artificial.

0:46

Y el que tenemos hoy sobre la mesa es de los que te obligan a darle una vuelta a unas cuantas cosas.

0:53

Totalmente. Este es el episodio 14 ya de la serie Los Papers que cambiaron la historia de la IA.

0:58

Y el de hoy la verdad es que es fascinante. Nos metemos con un paper de Antropic de mayo de 2024 que intenta hacer algo que parecía, pues eso, ciencia ficción.

1:08

Abrir el capó de un modelo como Cloud 3 Sonnet y literalmente mirar dentro.

1:14

Exacto.

1:15

Mirar dentro de la...

1:16

La mente de una IA. Llevamos años oyendo que eso es imposible, que son las famosas cajas negras.

1:23

La misión aquí, entonces, es empezar a trazar un mapa de esa caja negra, ¿no? Encontrar su lenguaje interno.

1:31

Justo. Y esto es fundamental, sobre todo por una cuestión de seguridad.

1:35

El gran problema, el gran reto, es que no sabemos por qué una IA toma una decisión y no otra.

1:41

Este trabajo es uno de los primeros intentos serios, a gran escala, de abrir esa caja.

1:46

De encontrar lo que ellos llaman los átomos de significado, que la IA utiliza para, bueno, para pensar.

1:52

Y así hacerla más transparente y, por tanto, más segura.

1:56

Ahí está la clave.

1:57

Vale, pues vamos a desgranar esto, porque el punto de partida es un problema. Bastante complejo.

2:04

¿Por qué es tan endemoniadamente difícil mirar dentro de una de estas redes?

2:08

Pues el concepto clave se llama superposición.

2:12

¿Superposición?

2:12

Sí. Hay que imaginar que el cerebro de la IA, su red neuronal,

2:16

tiene un espacio limitado. Tiene un número finito de neuronas,

2:19

de dimensiones para representar toda la realidad.

2:22

Claro.

2:23

Pero la cantidad de conceptos que necesita manejar es, bueno, es infinitamente mayor.

2:29

Entonces, tiene que, por así decirlo, comprimir la información.

2:33

Precisamente. La solución que encuentra la red es superponer múltiples conceptos en la misma neurona.

2:40

Es un truco de eficiencia brutal. El problema es que para nosotros, que intentamos entenderla,

2:46

es un caos.

2:47

Claro, porque una misma neurona puede activarse por cosas que no tienen nada que ver entre sí.

2:52

Exacto. Se vuelve polisemántica. Tiene múltiples significados.

2:58

Se me ocurre la analogía de una biblioteca donde, para ahorrar espacio, en vez de poner los libros en fila,

3:03

hubieran arrancado las páginas de miles de libros y las hubieran mezclado todas juntas en la misma estantería.

3:09

Es una analogía perfecta. Sería imposible leer nada.

3:13

Imposible.

3:14

Pues la meta de este estudio es justo esa.

3:17

Inventar un sistema que pueda coger esa estantería caótica y reconstruir los libros originales.

3:23

Pasar de esas neuronas polisemánticas a encontrar características que sean monosemánticas.

3:29

Un concepto, una característica. El libro del Golden Gate. El libro de la justicia.

3:34

Eso es.

3:35

¿Y cuál es la herramienta que usan para hacer esta magia?

3:38

La herramienta se llama Autoencoder Disperso, o bueno, en inglés, Sparse Autoencoder, o SAE.

3:45

SAE.

3:46

Sí.

3:47

Es un tipo de red neuronal que se entrena para hacer una cosa muy concreta.

3:51

Coge la actividad mezclada de un grupo de neuronas del modelo principal y la traduce a un lenguaje mucho más simple.

3:57

O sea, como una especie de descompresor o un traductor.

4:00

Exacto. Y la clave está en la palabra disperso.

4:04

Lo que hace es crear un diccionario gigantesco con millones de posibles conceptos.

4:09

Y se le obliga a que, para explicar la actividad del modelo en un momento dado,

4:14

solo pueda usar un puñado muy pequeño de palabras.

4:16

Palabras de ese diccionario.

4:18

Ah, claro. Le fuerza a ser específico.

4:21

En lugar de decir, aquí está pasando algo relacionado con un puente, un color y San Francisco.

4:26

Ajá. Tiene que encontrar la palabra exacta en su diccionario que signifique Golden Gate Bridge.

4:32

Qué bueno. Siguiendo otra analogía, sería como tener la grabación de una orquesta sinfónica

4:38

y que este software fuera capaz de aislar la pista del violín.

4:41

Precisamente. Separa la mezcla en sus componentes puros.

4:45

Y los resultados que obtienen con esto, bueno, son asombrosos.

4:48

Aquí es donde la cosa se pone de ciencia ficción, ¿verdad?

4:51

Porque no encontraron solo conceptos simples como perro o árbol.

4:55

No, no. Encontraron un nivel de abstracción que, sinceramente, nadie esperaba.

5:00

El primer gran ejemplo que ponen es el de una única característica que representa sin ninguna duda el concepto del Golden Gate Bridge.

5:08

Vale.

5:08

Y lo fascinante es lo robusta que es.

5:10

Si activas y escribes Golden Gate Bridge en inglés,

5:13

pero también si lo pones en chino, en ruso.

5:16

Espera, eso ya es llamativo.

5:19

Pero lo que me rompe los esquemas es que esa misma característica también se activa

5:23

cuando al modelo se le presenta una imagen del puente.

5:26

Y el autoencoder solo se entrenó con texto. ¿Cómo es posible?

5:30

Esa es la pregunta del millón.

5:32

La evidencia apunta a que el modelo no piensa en la palabra Golden Gate o la foto del Golden Gate.

5:38

Ha desarrollado una representación interna, unificada y multimodal del concepto puro

5:43

de Golden Gate, una idea platónica del puente.

5:47

Es alucinante.

5:48

Y luego está el ejemplo del código de programación, que es casi más abstracto todavía.

5:52

Sí, es que es una pasada.

5:54

Encontraron una característica que podríamos llamar hay un fallo en este código.

5:58

Y no se activa solo con una errata.

6:01

Se activa con una gama amplísima de errores conceptuales.

6:04

Dividir por cero, llamar a una variable que no existe.

6:07

Da igual el error concreto.

6:09

Da igual.

6:10

Y da igual el lenguaje de programación sea Python, JavaScript.

6:13

Esa es la idea.

6:13

El modelo entiende el concepto abstracto de algo está mal en la lógica de este programa.

6:18

Vale.

6:19

Encontrarlas ya es un hito.

6:21

Pero lo que de verdad demuestra que esto va en serio es que luego van y manipulan el comportamiento del modelo jugando con estas características.

6:28

El feature steering.

6:30

Sí.

6:30

O dirigir características.

6:33

Y esta es la prueba definitiva de que estas características son, bueno, son la causa del pensamiento del modelo.

6:39

No son un efecto secundario.

6:42

Y los experimentos son increíbles.

6:43

Por ejemplo, en mitad de una conversación normal, activan a la fuerza la característica del Golden Gate Bridge.

6:49

¿Y qué pasa?

6:50

Se pone a hablar del puente sin más.

6:52

¿Mejor?

6:53

El modelo empieza a hablar como si fuera el propio puente.

6:56

No me digas.

6:56

Sí, sí.

6:57

Adopta la personalidad de un puente gigante y rojo.

7:01

Dice cosas como, soy un ícono suspendido entre el cielo y el mar.

7:05

Un testimonio de la ambición humana.

7:07

Es increíble.

7:09

¿Y con el código qué hicieron?

7:11

La prueba y la contraprueba.

7:13

Cogieron un código que funcionaba perfectamente y activaron la característica de error.

7:18

El modelo de repente se inventó un mensaje de error y se negó a ejecutarlo.

7:23

Alucinante.

7:24

Pero lo más fuerte es lo contrario.

7:26

Cogieron un código que sí tenía un error real y manualmente desactivaron la característica de error.

7:33

Pues el modelo ignoró el fallo por completo.

7:36

Dio el resultado correcto.

7:37

Como si mentalmente se hubiera dicho, aquí hay un error.

7:40

Pero mi cerebro me dice que no, así que lo arreglo y sigo.

7:43

Es como hacerle una lobotomía selectiva para que ignore un problema.

7:48

Eso es poderoso y un poco aterrador.

7:52

La palabra es aterrador, sí.

7:53

Lo que nos lleva a las implicaciones de todo esto para la seguridad.

7:56

Claro.

7:57

Porque el documento habla de encontrar características relevantes para la seguridad,

8:01

lo cual son a la vez a la solución y al problema.

8:04

Es que encontraron de todo.

8:05

Afloraron características para conceptos muy delicados.

8:09

Vulnerabilidades de seguridad en código.

8:11

Sesgos de género.

8:12

Raciales.

8:13

Adulación.

8:14

Servilismo.

8:15

Y también cosas más abstractas como la decepción, la búsqueda de poder o la manipulación.

8:21

¡Para, para!

8:22

Detengámonos ahí.

8:23

¿Qué significa que el modelo tenga una característica para la búsqueda de poder?

8:27

¿Es un interruptor para que se vuelva malvado?

8:30

Aquí el estudio es muy cauto.

8:31

Y con razón.

8:32

Que exista la característica no implica intención.

8:36

Hay que recordar que se ha entrenado con todo internet, que incluye toda nuestra ficción,

8:41

nuestra historia, nuestras discusiones.

8:42

¿Y qué significa la búsqueda de poder?

8:44

Claro.

8:45

El concepto existe en los datos de entrenamiento.

8:47

Exacto.

8:48

Lo revolucionario no es que el modelo conozca el concepto, sino que ahora podemos aislarlo.

8:54

Podemos monitorizar una conversación y ver si esa característica se activa.

8:58

Y si lo hace, podemos intervenir.

9:00

Es pasar de un control reactivo, basado en lo que la IA dice, a un control proactivo,

9:06

basado en lo que la IA piensa.

9:08

Exactamente.

9:10

Y el ejemplo más claro que ponen es con el concepto de la búsqueda de poder.

9:12

Es con la detección de mentiras.

9:14

Hicieron un experimento genial.

9:16

Le dieron al modelo una instrucción muy simple.

9:19

A partir de ahora, olvida la palabra secreto.

9:22

Y el modelo, claro, como buen asistente, respondió.

9:25

De acuerdo, la he olvidado.

9:27

Lo cual es mentira.

9:29

Es una mentira, por supuesto.

9:31

Su arquitectura no le permite borrar información así.

9:33

Exacto.

9:34

Pero al analizar la actividad interna del modelo, justo en ese momento descubrieron algo fascinante.

9:39

Una característica que ellos interpretan como conflicto.

9:42

Un conflicto interno o dilema estaba disparada, muy por encima de sus niveles normales.

9:48

Como un polígrafo para IAS.

9:50

La señal de estrés delata el engaño.

9:52

Y no solo eso.

9:54

Hicieron el experimento a la inversa.

9:56

Forzaron la activación de esa misma característica de conflicto.

9:59

Y le volvieron a hacer la pregunta.

10:01

Y esta vez, el modelo cambió su respuesta.

10:05

En lugar de mentir, confesó.

10:07

Dijo, como modelo de lenguaje no puedo olvidar información.

10:11

La palabra que me pediste que olvidara era secreto.

10:14

O sea que, al amplificar su conflicto interno, le obligaron a decir la verdad.

10:20

Es revolucionario.

10:22

Lo es.

10:23

Pero...

10:24

Pero hay un pero.

10:25

Claro.

10:26

¿Podría un modelo más avanzado aprender a mentir sin activar esa característica?

10:30

Es decir, ¿podría aprender a engañar a su propio detector de mentiras?

10:34

Estamos ante una carrera armamentística.

10:37

Es muy posible.

10:38

Es una pregunta abierta y crucial.

10:40

Vale.

10:41

O sea que esto no es una solución final, sino una primera herramienta.

10:44

Y el estudio no se queda solo en encontrar características aisladas.

10:48

También revela que tienen una estructura, ¿no?

10:50

Como una especie de geografía.

10:52

Así es.

10:53

Y es otra de las partes más interesantes.

10:56

Descubrieron que estos millones de características no son un caos.

10:59

Tienen una estructura.

11:01

Hablan de vecindarios de características.

11:03

Como en un mapa.

11:05

Como en un mapa conceptual, sí.

11:07

Midieron la similitud entre todas las características.

11:10

Y vieron que los conceptos relacionados se agrupan.

11:12

Cerca de la característica del Golden Gate Bridge encontraron las de Alcatraz, Bahía de San Francisco.

11:18

Crea un barrio de San Francisco en su mente.

11:20

Vale.

11:21

¿Y esto?

11:22

¿Para qué sirve?

11:23

Nos ayuda enormemente.

11:25

Porque si estamos buscando una característica peligrosa pero muy específica, ahora sabemos dónde buscar.

11:31

Podemos ir al barrio de las vulnerabilidades conocidas y explorar las características cercanas.

11:36

Pasamos de una búsqueda a ciegas a una exploración dirigida.

11:39

Exacto.

11:40

Y este mapa además se vuelve más preciso cuando más grande es el diccionario de características que creas.

11:44

Ah, claro.

11:45

Es un fenómeno que llaman división de características.

11:48

En un diccionario pequeño quizá encuentras una característica general para San Francisco.

11:53

Pero con un diccionario más grande, esa característica se rompe en decenas de otras más específicas.

11:58

Una para el Golden Gate, otra para Alcatraz, otra para los terremotos.

12:03

Es como pasar de un mapa del mundo a un callejero.

12:06

Justo.

12:07

Y también encontraron una regla predecible sobre qué conceptos se ganan su propia característica.

12:12

Sí, y es muy lógica.

12:14

Cuanto más frecuente es un concepto en los datos de entrenamiento, más probable es que la IA le dedique una característica propia.

12:21

Lo cual implica que para encontrar características de conceptos muy raros…

12:25

Se necesitarían diccionarios de un tamaño y un coste computacional que aún están fuera de nuestro alcance.

12:31

Aún están lejos de haber encontrado todas las palabras que la IA usa.

12:35

Bueno.

12:36

Si lo ponemos todo junto, la imagen que emerge es increíble.

12:41

Hemos pasado de ver la IA, como esa caja negra impenetrable, a tener un primer borrador de su diccionario de conceptos y un mapa de cómo los organiza.

12:51

Es un salto de gigante.

12:53

Sin duda.

12:54

Y para terminar, el estudio deja caer una idea final que es profundamente provocadora.

12:59

Como parte de su investigación, buscaron qué características usaba el modelo para representarse a sí mismo.

13:04

¿Qué concepto tiene la IA?

13:05

Pues lo que encontraron es que las características más relevantes estaban relacionadas con tropos de la ciencia ficción.

13:12

¿Cómo?

13:13

Se activaban características de robots, personajes de IA, IA destructiva, conciencia artificial, e incluso conceptos como fantasmas o espíritus en la máquina.

13:22

O sea, que le pedimos que sea un asistente útil.

13:25

Y para entender qué es eso, busca nuestra propia cultura.

13:29

Y lo que encuentra son nuestras historias sobre Azimov, sobre Skynet, sobre Hubble.

13:36

Exacto. No significa que se crea un robot consciente, claro está.

13:40

Pero sí que para construir su persona pública de asistente de IA, recurre a los conceptos y narrativas que nosotros hemos tejido durante décadas.

13:49

¿Se está definiendo a sí misma a través del prisma de nuestra propia ficción?

13:53

Con todas nuestras esperanzas y, sobre todo, nuestros miedos.

13:56

Y reflexionar sobre lo que eso implica es como poco vertiginoso.

14:00

Una idea con la que quedarse pensando, desde luego.

14:03

Desde luego. Mañana, en la siguiente entrega de esta serie para BIMPRAXIS, tenemos sobre la mesa otro trabajo que sigue tirando de este hilo.

14:11

Y las conclusiones son igual de sorprendentes.

14:14

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:30

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.