E028_Abrir el capó de Claude Sonnet

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Bienvenidas y bienvenidos. Continuamos con nuestra serie para BIMPRAXIS sobre los trabajos que están, bueno, que están redefiniendo la inteligencia artificial.

0:46

Y el que tenemos hoy sobre la mesa es de los que te obligan a darle una vuelta a unas cuantas cosas.

0:53

Totalmente. Este es el episodio 14 ya de la serie Los Papers que cambiaron la historia de la IA.

0:58

Y el de hoy la verdad es que es fascinante. Nos metemos con un paper de Antropic de mayo de 2024 que intenta hacer algo que parecía, pues eso, ciencia ficción.

1:08

Abrir el capó de un modelo como Cloud 3 Sonnet y literalmente mirar dentro.

1:14

Exacto.

1:15

Mirar dentro de la...

1:16

La mente de una IA. Llevamos años oyendo que eso es imposible, que son las famosas cajas negras.

1:23

La misión aquí, entonces, es empezar a trazar un mapa de esa caja negra, ¿no? Encontrar su lenguaje interno.

1:31

Justo. Y esto es fundamental, sobre todo por una cuestión de seguridad.

1:35

El gran problema, el gran reto, es que no sabemos por qué una IA toma una decisión y no otra.

1:41

Este trabajo es uno de los primeros intentos serios, a gran escala, de abrir esa caja.

1:46

De encontrar lo que ellos llaman los átomos de significado, que la IA utiliza para, bueno, para pensar.

1:52

Y así hacerla más transparente y, por tanto, más segura.

1:56

Ahí está la clave.

1:57

Vale, pues vamos a desgranar esto, porque el punto de partida es un problema. Bastante complejo.

2:04

¿Por qué es tan endemoniadamente difícil mirar dentro de una de estas redes?

2:08

Pues el concepto clave se llama superposición.

2:12

¿Superposición?

2:12

Sí. Hay que imaginar que el cerebro de la IA, su red neuronal,

2:16

tiene un espacio limitado. Tiene un número finito de neuronas,

2:19

de dimensiones para representar toda la realidad.

2:22

Claro.

2:23

Pero la cantidad de conceptos que necesita manejar es, bueno, es infinitamente mayor.

2:29

Entonces, tiene que, por así decirlo, comprimir la información.

2:33

Precisamente. La solución que encuentra la red es superponer múltiples conceptos en la misma neurona.

2:40

Es un truco de eficiencia brutal. El problema es que para nosotros, que intentamos entenderla,

2:46

es un caos.

2:47

Claro, porque una misma neurona puede activarse por cosas que no tienen nada que ver entre sí.

2:52

Exacto. Se vuelve polisemántica. Tiene múltiples significados.

2:58

Se me ocurre la analogía de una biblioteca donde, para ahorrar espacio, en vez de poner los libros en fila,

3:03

hubieran arrancado las páginas de miles de libros y las hubieran mezclado todas juntas en la misma estantería.

3:09

Es una analogía perfecta. Sería imposible leer nada.

3:13

Imposible.

3:14

Pues la meta de este estudio es justo esa.

3:17

Inventar un sistema que pueda coger esa estantería caótica y reconstruir los libros originales.

3:23

Pasar de esas neuronas polisemánticas a encontrar características que sean monosemánticas.

3:29

Un concepto, una característica. El libro del Golden Gate. El libro de la justicia.

3:34

Eso es.

3:35

¿Y cuál es la herramienta que usan para hacer esta magia?

3:38

La herramienta se llama Autoencoder Disperso, o bueno, en inglés, Sparse Autoencoder, o SAE.

3:45

SAE.

3:46

Sí.

3:47

Es un tipo de red neuronal que se entrena para hacer una cosa muy concreta.

3:51

Coge la actividad mezclada de un grupo de neuronas del modelo principal y la traduce a un lenguaje mucho más simple.

3:57

O sea, como una especie de descompresor o un traductor.

4:00

Exacto. Y la clave está en la palabra disperso.

4:04

Lo que hace es crear un diccionario gigantesco con millones de posibles conceptos.

4:09

Y se le obliga a que, para explicar la actividad del modelo en un momento dado,

4:14

solo pueda usar un puñado muy pequeño de palabras.

4:16

Palabras de ese diccionario.

4:18

Ah, claro. Le fuerza a ser específico.

4:21

En lugar de decir, aquí está pasando algo relacionado con un puente, un color y San Francisco.

4:26

Ajá. Tiene que encontrar la palabra exacta en su diccionario que signifique Golden Gate Bridge.

4:32

Qué bueno. Siguiendo otra analogía, sería como tener la grabación de una orquesta sinfónica

4:38

y que este software fuera capaz de aislar la pista del violín.

4:41

Precisamente. Separa la mezcla en sus componentes puros.

4:45

Y los resultados que obtienen con esto, bueno, son asombrosos.

4:48

Aquí es donde la cosa se pone de ciencia ficción, ¿verdad?

4:51

Porque no encontraron solo conceptos simples como perro o árbol.

4:55

No, no. Encontraron un nivel de abstracción que, sinceramente, nadie esperaba.

5:00

El primer gran ejemplo que ponen es el de una única característica que representa sin ninguna duda el concepto del Golden Gate Bridge.

5:08

Vale.

5:08

Y lo fascinante es lo robusta que es.

5:10

Si activas y escribes Golden Gate Bridge en inglés,

5:13

pero también si lo pones en chino, en ruso.

5:16

Espera, eso ya es llamativo.

5:19

Pero lo que me rompe los esquemas es que esa misma característica también se activa

5:23

cuando al modelo se le presenta una imagen del puente.

5:26

Y el autoencoder solo se entrenó con texto. ¿Cómo es posible?

5:30

Esa es la pregunta del millón.

5:32

La evidencia apunta a que el modelo no piensa en la palabra Golden Gate o la foto del Golden Gate.

5:38

Ha desarrollado una representación interna, unificada y multimodal del concepto puro

5:43

de Golden Gate, una idea platónica del puente.

5:47

Es alucinante.

5:48

Y luego está el ejemplo del código de programación, que es casi más abstracto todavía.

5:52

Sí, es que es una pasada.

5:54

Encontraron una característica que podríamos llamar hay un fallo en este código.

5:58

Y no se activa solo con una errata.

6:01

Se activa con una gama amplísima de errores conceptuales.

6:04

Dividir por cero, llamar a una variable que no existe.

6:07

Da igual el error concreto.

6:09

Da igual.

6:10

Y da igual el lenguaje de programación sea Python, JavaScript.

6:13

Esa es la idea.

6:13

El modelo entiende el concepto abstracto de algo está mal en la lógica de este programa.

6:18

Vale.

6:19

Encontrarlas ya es un hito.

6:21

Pero lo que de verdad demuestra que esto va en serio es que luego van y manipulan el comportamiento del modelo jugando con estas características.

6:28

El feature steering.

6:30

Sí.

6:30

O dirigir características.

6:33

Y esta es la prueba definitiva de que estas características son, bueno, son la causa del pensamiento del modelo.

6:39

No son un efecto secundario.

6:42

Y los experimentos son increíbles.

6:43

Por ejemplo, en mitad de una conversación normal, activan a la fuerza la característica del Golden Gate Bridge.

6:49

¿Y qué pasa?

6:50

Se pone a hablar del puente sin más.

6:52

¿Mejor?

6:53

El modelo empieza a hablar como si fuera el propio puente.

6:56

No me digas.

6:56

Sí, sí.

6:57

Adopta la personalidad de un puente gigante y rojo.

7:01

Dice cosas como, soy un ícono suspendido entre el cielo y el mar.

7:05

Un testimonio de la ambición humana.

7:07

Es increíble.

7:09

¿Y con el código qué hicieron?

7:11

La prueba y la contraprueba.

7:13

Cogieron un código que funcionaba perfectamente y activaron la característica de error.

7:18

El modelo de repente se inventó un mensaje de error y se negó a ejecutarlo.

7:23

Alucinante.

7:24

Pero lo más fuerte es lo contrario.

7:26

Cogieron un código que sí tenía un error real y manualmente desactivaron la característica de error.

7:33

Pues el modelo ignoró el fallo por completo.

7:36

Dio el resultado correcto.

7:37

Como si mentalmente se hubiera dicho, aquí hay un error.

7:40

Pero mi cerebro me dice que no, así que lo arreglo y sigo.

7:43

Es como hacerle una lobotomía selectiva para que ignore un problema.

7:48

Eso es poderoso y un poco aterrador.

7:52

La palabra es aterrador, sí.

7:53

Lo que nos lleva a las implicaciones de todo esto para la seguridad.

7:56

Claro.

7:57

Porque el documento habla de encontrar características relevantes para la seguridad,

8:01

lo cual son a la vez a la solución y al problema.

8:04

Es que encontraron de todo.

8:05

Afloraron características para conceptos muy delicados.

8:09

Vulnerabilidades de seguridad en código.

8:11

Sesgos de género.

8:12

Raciales.

8:13

Adulación.

8:14

Servilismo.

8:15

Y también cosas más abstractas como la decepción, la búsqueda de poder o la manipulación.

8:21

¡Para, para!

8:22

Detengámonos ahí.

8:23

¿Qué significa que el modelo tenga una característica para la búsqueda de poder?

8:27

¿Es un interruptor para que se vuelva malvado?

8:30

Aquí el estudio es muy cauto.

8:31

Y con razón.

8:32

Que exista la característica no implica intención.

8:36

Hay que recordar que se ha entrenado con todo internet, que incluye toda nuestra ficción,

8:41

nuestra historia, nuestras discusiones.

8:42

¿Y qué significa la búsqueda de poder?

8:44

Claro.

8:45

El concepto existe en los datos de entrenamiento.

8:47

Exacto.

8:48

Lo revolucionario no es que el modelo conozca el concepto, sino que ahora podemos aislarlo.

8:54

Podemos monitorizar una conversación y ver si esa característica se activa.

8:58

Y si lo hace, podemos intervenir.

9:00

Es pasar de un control reactivo, basado en lo que la IA dice, a un control proactivo,

9:06

basado en lo que la IA piensa.

9:08

Exactamente.

9:10

Y el ejemplo más claro que ponen es con el concepto de la búsqueda de poder.

9:12

Es con la detección de mentiras.

9:14

Hicieron un experimento genial.

9:16

Le dieron al modelo una instrucción muy simple.

9:19

A partir de ahora, olvida la palabra secreto.

9:22

Y el modelo, claro, como buen asistente, respondió.

9:25

De acuerdo, la he olvidado.

9:27

Lo cual es mentira.

9:29

Es una mentira, por supuesto.

9:31

Su arquitectura no le permite borrar información así.

9:33

Exacto.

9:34

Pero al analizar la actividad interna del modelo, justo en ese momento descubrieron algo fascinante.

9:39

Una característica que ellos interpretan como conflicto.

9:42

Un conflicto interno o dilema estaba disparada, muy por encima de sus niveles normales.

9:48

Como un polígrafo para IAS.

9:50

La señal de estrés delata el engaño.

9:52

Y no solo eso.

9:54

Hicieron el experimento a la inversa.

9:56

Forzaron la activación de esa misma característica de conflicto.

9:59

Y le volvieron a hacer la pregunta.

10:01

Y esta vez, el modelo cambió su respuesta.

10:05

En lugar de mentir, confesó.

10:07

Dijo, como modelo de lenguaje no puedo olvidar información.

10:11

La palabra que me pediste que olvidara era secreto.

10:14

O sea que, al amplificar su conflicto interno, le obligaron a decir la verdad.

10:20

Es revolucionario.

10:22

Lo es.

10:23

Pero...

10:24

Pero hay un pero.

10:25

Claro.

10:26

¿Podría un modelo más avanzado aprender a mentir sin activar esa característica?

10:30

Es decir, ¿podría aprender a engañar a su propio detector de mentiras?

10:34

Estamos ante una carrera armamentística.

10:37

Es muy posible.

10:38

Es una pregunta abierta y crucial.

10:40

Vale.

10:41

O sea que esto no es una solución final, sino una primera herramienta.

10:44

Y el estudio no se queda solo en encontrar características aisladas.

10:48

También revela que tienen una estructura, ¿no?

10:50

Como una especie de geografía.

10:52

Así es.

10:53

Y es otra de las partes más interesantes.

10:56

Descubrieron que estos millones de características no son un caos.

10:59

Tienen una estructura.

11:01

Hablan de vecindarios de características.

11:03

Como en un mapa.

11:05

Como en un mapa conceptual, sí.

11:07

Midieron la similitud entre todas las características.

11:10

Y vieron que los conceptos relacionados se agrupan.

11:12

Cerca de la característica del Golden Gate Bridge encontraron las de Alcatraz, Bahía de San Francisco.

11:18

Crea un barrio de San Francisco en su mente.

11:20

Vale.

11:21

¿Y esto?

11:22

¿Para qué sirve?

11:23

Nos ayuda enormemente.

11:25

Porque si estamos buscando una característica peligrosa pero muy específica, ahora sabemos dónde buscar.

11:31

Podemos ir al barrio de las vulnerabilidades conocidas y explorar las características cercanas.

11:36

Pasamos de una búsqueda a ciegas a una exploración dirigida.

11:39

Exacto.

11:40

Y este mapa además se vuelve más preciso cuando más grande es el diccionario de características que creas.

11:44

Ah, claro.

11:45

Es un fenómeno que llaman división de características.

11:48

En un diccionario pequeño quizá encuentras una característica general para San Francisco.

11:53

Pero con un diccionario más grande, esa característica se rompe en decenas de otras más específicas.

11:58

Una para el Golden Gate, otra para Alcatraz, otra para los terremotos.

12:03

Es como pasar de un mapa del mundo a un callejero.

12:06

Justo.

12:07

Y también encontraron una regla predecible sobre qué conceptos se ganan su propia característica.

12:12

Sí, y es muy lógica.

12:14

Cuanto más frecuente es un concepto en los datos de entrenamiento, más probable es que la IA le dedique una característica propia.

12:21

Lo cual implica que para encontrar características de conceptos muy raros…

12:25

Se necesitarían diccionarios de un tamaño y un coste computacional que aún están fuera de nuestro alcance.

12:31

Aún están lejos de haber encontrado todas las palabras que la IA usa.

12:35

Bueno.

12:36

Si lo ponemos todo junto, la imagen que emerge es increíble.

12:41

Hemos pasado de ver la IA, como esa caja negra impenetrable, a tener un primer borrador de su diccionario de conceptos y un mapa de cómo los organiza.

12:51

Es un salto de gigante.

12:53

Sin duda.

12:54

Y para terminar, el estudio deja caer una idea final que es profundamente provocadora.

12:59

Como parte de su investigación, buscaron qué características usaba el modelo para representarse a sí mismo.

13:04

¿Qué concepto tiene la IA?

13:05

Pues lo que encontraron es que las características más relevantes estaban relacionadas con tropos de la ciencia ficción.

13:12

¿Cómo?

13:13

Se activaban características de robots, personajes de IA, IA destructiva, conciencia artificial, e incluso conceptos como fantasmas o espíritus en la máquina.

13:22

O sea, que le pedimos que sea un asistente útil.

13:25

Y para entender qué es eso, busca nuestra propia cultura.

13:29

Y lo que encuentra son nuestras historias sobre Azimov, sobre Skynet, sobre Hubble.

13:36

Exacto. No significa que se crea un robot consciente, claro está.

13:40

Pero sí que para construir su persona pública de asistente de IA, recurre a los conceptos y narrativas que nosotros hemos tejido durante décadas.

13:49

¿Se está definiendo a sí misma a través del prisma de nuestra propia ficción?

13:53

Con todas nuestras esperanzas y, sobre todo, nuestros miedos.

13:56

Y reflexionar sobre lo que eso implica es como poco vertiginoso.

14:00

Una idea con la que quedarse pensando, desde luego.

14:03

Desde luego. Mañana, en la siguiente entrega de esta serie para BIMPRAXIS, tenemos sobre la mesa otro trabajo que sigue tirando de este hilo.

14:11

Y las conclusiones son igual de sorprendentes.

14:14

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:30

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E028_Abrir el capó de Claude Sonnet

Episode description

Persons