E023_Muñecas rusas o Cómo esconder IAs gigantes en embeddings diminutos

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidos a una nueva entrega.

0:40

Hoy llegamos al noveno análisis de nuestra serie especial de BIMPRAXIS.

0:45

Los papers que cambiaron la historia de la IA.

0:48

Exacto. Y hoy nos metemos de lleno en un campo de batalla que es, bueno, constante en este mundo, la lucha por la eficiencia.

0:57

Todos queremos modelos de IA que sean como atletas de élite, potentes, precisos, pero a la vez…

1:03

Ágiles, rápidos y que no se agoten a la primera de cambio.

1:07

Ese es el santo grial, sí. Pero la realidad en ingeniería, y sobre todo en MLOPS, es que casi siempre te encuentras con un compromiso.

1:14

El famoso.

1:15

El famoso trade-off.

1:16

El trade-off de rendimiento, sí. Para ganar precisión tienes que pagar un precio.

1:21

Y ese precio es coste computacional, velocidad, tamaño… Un precio que a veces es altísimo.

1:27

Pero la pregunta que flota en el aire, y que es el corazón del paper de hoy, es…

1:31

¿Y si esa elección no fuera necesaria? ¿Y si pudieras tenerlo todo?

1:35

Imagina, un único modelo de IA que pudiera como cambiar de marcha, que adaptara su complejidad y su coste sobre la marcha.

1:43

Sin tener que volver al taller.

1:45

Sin reentrenarlo.

1:46

Una especie de navaja suiza para las representaciones de datos.

1:50

Justo. Y es una idea que suena casi a ciencia ficción, porque va en contra de cómo se han construido los modelos durante años.

1:57

La rigidez es la norma.

1:59

Totalmente. Pues esa es precisamente la norma que viene a romper el paper que tenemos sobre la mesa.

2:06

Matryoshka Representation Learning. Publicado por primera vez en mayo de 2022.

2:11

Y el propio nombre, Matryoshka, como las muñecas rusas, ya nos da una pista.

2:15

Una pista muy, muy clara de por dónde va la solución. Es una idea tan elegante como intuitiva.

2:22

Es una de esas ideas que, cuando la lees, piensas, ¿cómo no se le había ocurrido a nadie antes?

2:28

Ataca un problema que es un verdadero quebradero de cabeza en el despliegue de sistemas de IA a gran escala.

2:33

Y lo hace desde la raíz misma del modelo.

2:36

Exacto. De acuerdo, pues vamos a meternos en faena.

2:40

A ver, para entender la genialidad de la propuesta, primero tenemos que hablar de la pieza central.

2:44

Las representaciones aprendidas. O los embeddings, como se les conoce en la jerga.

2:50

Eso es. A mí me gusta pensar en ellos como la ficha técnica que una IA crea de algo.

2:56

Si le muestras una foto de un gato, no ve un gato. Ve una lista larguísima de números.

3:01

Y esa lista de números, para ella, codifica la esencia del hogatuno en esa imagen.

3:05

Es una analogía perfecta. Es un resumen numérico que captura las características más importantes.

3:10

Y el dilema fundamental, el pecado original de muchos sistemas,

3:14

empieza justo ahí.

3:16

En el momento de decidir cómo de larga y detallada va a ser esa ficha técnica.

3:20

Exacto. Tienes que elegir una dimensión. Pongamos 1024 números.

3:25

Con eso, obtienes una ficha súper detallada. Muy rica en matices.

3:30

Perfecta para tareas de análisis muy complejas.

3:32

Pero claro.

3:33

Mover, almacenar y comparar millones de esas fichas de 1024 números es increíblemente lento.

3:40

Y caro.

3:42

Y la alternativa es decirte al otro extremo.

3:44

Es una ficha muy corta, de 128 números. Rapidísima de procesar. Ideal para una búsqueda en un móvil.

3:51

El problema es que en esa compresión tan agresiva pierdes información. Es como intentar describir el Quijote.

3:57

Puedes hacerlo en un tuit de 280 caracteres.

4:00

O en un ensaño de 50 páginas.

4:02

Pues eso. El tuit es rápido, pero te dejas el 99% de la obra por el camino.

4:07

Es una gran analogía.

4:10

Me recuerda cuando intentas explicar una película compleja a un amigo en 30 segundos.

4:14

Te quedas con un amigo en 30 segundos.

4:14

Con... va de un tipo que... y pierdes todo el matiz.

4:18

Pues aquí pasa lo mismo.

4:19

Pero con millones de euros en costes de computación en juego.

4:23

Y lo peor de todo es que, una vez que has entrenado a tu modelo para que escriba ensayos de 50 páginas...

4:30

No puedes pedirle que te haga un tuit.

4:32

Estás atado a ese formato. No hay marcha atrás.

4:35

Y esa rigidez es una pesadilla a nivel operativo.

4:37

Obliga a las grandes empresas a entrenar y mantener, bueno, ecosistemas enteros de modelos.

4:43

Claro.

4:44

En la plataforma de comercio electrónico.

4:46

Necesitan una versión ligera del modelo para las búsquedas visuales en la app, que tienen que ser instantáneas.

4:51

Ajá.

4:52

Pero también necesitan una versión pesada, ultra precisa, en sus servidores para analizar patrones de compra.

4:57

Y son dos modelos distintos, con dos pipelines de datos, dos equipos de mantenimiento...

5:02

El coste se dispara. Y no es solo un problema de coste económico.

5:06

El propio paper señala que es un sistema estadísticamente ineficiente.

5:10

¿A qué se refieren con eso?

5:11

Pues que para una tarea simple, como distinguir un perro de un gato,

5:14

esa ficha de 1024 números es excesiva, es un derroche.

5:18

Y para una tarea muy compleja, como identificar una subespecie concreta de pájaro,

5:24

quizás la ficha de 128 se queda corta.

5:27

Y pierdes la precisión que necesitabas. Al final, es el clásico un tamaño para todo.

5:31

Que en la práctica significa que no es el tamaño perfecto para casi nada.

5:36

Siempre estás o malgastando recursos o sacrificando rendimiento.

5:39

Vale, el problema está clarísimo. O rápido y simple, o listo y lento.

5:44

Y estás atado a tu elección inicial. Parece un callejón sin salida.

5:48

¿Cómo demonios lo solucionan los autores? ¿Cuál es el truco?

5:50

Pues el truco es dejar de pensar en la ficha técnica como un bloque monolítico.

5:54

Y empezar a pensar en ella como... como una muñeca matriosca.

6:00

La idea es brillante. Entrenas un único modelo para que genere la ficha más grande y detallada posible.

6:06

La de 1024. La más completa.

6:09

Pero lo haces de una forma muy especial.

6:10

De modo que dentro de esa gran representación,

6:14

anidadas, ya existen versiones más pequeñas.

6:17

Y totalmente funcionales.

6:18

Como las muñecas rusas. Abres la grande y dentro hay otra.

6:22

Un poco más pequeña, pero perfectamente formada.

6:24

La abres y hay otra más.

6:27

Cada una es una versión completa de la muñeca, pero a una escala diferente.

6:31

Llevado a la práctica, esto significa que si una aplicación necesita velocidad máxima,

6:36

en lugar de usar los 1024 números, simplemente coge los primeros 128.

6:40

Y ignora el resto.

6:42

Y lo revolucionario es que...

6:44

Estos 128 números no son un trozo incompleto y sinsentido de la ficha grande.

6:49

Son, por sí mismos, una ficha técnica coherente y de alta calidad.

6:54

Sólo que con menos resolución.

6:56

Exacto.

6:56

Espera, eso es lo que me parece casi mágico.

7:00

Intuitivamente, si tienes una lista de datos que describe algo y la cortas,

7:05

esperarías que el resultado fuera basura.

7:07

¿Información corrupta?

7:08

Claro, como si cortas una foto por la mitad.

7:11

¿Cómo consiguen que la primera parte del vector siga la misma?

7:14

Está teniendo sentido por sí sola.

7:15

Ahí está la clave del asunto.

7:17

Y la palabra que usan es aprendizaje de grano grueso afino.

7:21

Course to find.

7:22

De acuerdo.

7:23

La genialidad está en modificar ligeramente el objetivo del entrenamiento.

7:28

Normalmente, al entrenar, le dices al modelo.

7:31

Tu objetivo es que la ficha completa de 1024 números sea lo más precisa posible.

7:37

Ajá.

7:38

Con Matriuska Representation Learning, o MRL, el objetivo cambia.

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

¿Qué pasa?

7:43

Ahora le dices.

7:45

Tu objetivo es que la ficha completa sea precisa, pero también que los primeros 512 números

7:50

sean una versión precisa.

7:52

Y que los primeros 256 también lo sean.

7:56

Y los primeros 128.

7:57

Y así sucesivamente.

7:59

O sea que lo fuerzas a organizar la información de forma jerárquica.

8:04

Es como si le dijeras, en los primeros números quiero el boceto general, la información

8:08

más importante.

8:10

Y a medida que añades más números…

8:12

Vas añadiendo detalles.

8:13

… texturas y matices cada vez más finos.

8:16

¿Has dado en Eikau?

8:17

Es un diseño de información increíblemente inteligente.

8:21

La información más crítica y general se empaqueta al principio del vector.

8:25

Y la más específica y detallada al final.

8:27

Y lo más importante, un detalle crucial que mencionan y que es la clave de su viabilidad.

8:33

Esta flexibilidad no añade ningún coste extra en el momento de usar el modelo, en

8:38

lo que se conoce como inferencia.

8:40

Exacto.

8:41

Exacto.

8:41

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

8:42

Exacto.

9:11

Exacto.

9:12

Exacto.

9:12

Exacto.

9:12

escala. Construir modelos gigantescos. Y luego, comprime, comprime, comprime. Intentar hacerlos

9:19

más pequeños con técnicas posteriores. Este paper demuestra que la eficiencia no tiene por

9:24

qué ser un paso posterior, una ocurrencia tardía. Puede ser una propiedad intrínseca del modelo.

9:30

Horneada en su ADN desde el principio. Y es interesante ponerlo en contexto con otras

9:35

técnicas. Antes de MPRL, ¿qué se hacía para intentar solucionar este problema? Había

9:41

principalmente dos enfoques. Uno es la poda o pruning, que es como coger el modelo ya entrenado

9:47

y literalmente ir cortando las conexiones neuronales que parecen menos importantes.

9:52

Como un jardinero que poda un arbusto. Justo. El otro es la cuantificación,

9:57

que consiste en coger los números de la ficha técnica y representarlos con menos precisión,

10:03

usando enteros en lugar de decimales largos, por ejemplo. Pero ambos métodos suenan

10:07

destructivos. Una vez que podas algo,

10:11

no lo puedes recuperar. Y si reduces la precisión, pierdes información para siempre. Ese es el punto.

10:18

Son técnicas que se aplican a posteriori y que implican una pérdida de información irreversible.

10:24

MRL es fundamentalmente distinto. No destruye nada. Exacto. Te da acceso a la representación

10:30

de máxima fidelidad si la necesitas, pero también te ofrece atajos eficientes que ya

10:35

estaban previstos en el diseño original. Es una solución mucho más elegante. Y flexible.

10:41

La verdad es que la idea es brillante. Pero las ideas hay que demostrarlas. ¿Qué tal funcionan

10:47

estas muñecas en el mundo real? ¿Los resultados que presentan están a la altura?

10:52

Están más que a la altura. Son espectaculares. Y los autores se cuidan mucho de probarlo en

10:58

múltiples escenarios para demostrar que no es un golpe de suerte.

11:01

A ver, vamos a ver esos números. En el resumen hablan de una reducción de tamaño de hasta 14

11:07

veces en los embeddings. En clasificación, en la famosa base de datos ImageNet,

11:11

1K. Y manteniendo el mismo nivel de precisión. 14 veces. Pensemos lo que eso significa. Es la

11:18

diferencia entre un archivo que ocupa 140 megas y uno que ocupa 10, para un móvil con almacenamiento

11:23

limitado. O para transmitir datos por una red con poco ancho de banda. Esa diferencia es abismal.

11:29

Abre la puerta a tener IA mucho más potente en dispositivos de borde, los Edge Devices. Claro,

11:35

como sensores, cámaras de seguridad inteligentes o incluso wearables. Eso es. Y no solo más pequeños,

11:41

también más rápidos. Mencionan aceleraciones de hasta 14 veces en tareas de búsqueda a gran escala.

11:47

Que si tienes una base de datos con millones de imágenes. Encontrar la que más se parece a la

11:52

tuya podría pasar de tardar 14 segundos a tardar solo uno. Que, a efectos prácticos para quien lo

11:59

usa, es la diferencia entre una experiencia frustrante y una que parece mágica. Casi

12:04

instantánea. Piensa en las aplicaciones de busca por imagen en el comercio electrónico. Una

12:10

velocidad así cambia por cada vez más. Y no solo en el comercio electrónico, sino en el comercio

12:11

completo la experiencia de compra. Y aquí viene algo que me sorprendió. No solo se trata de ser

12:17

más eficiente. El paper afirma que MRL puede incluso mejorar la precisión en ciertas tareas. Citan una

12:23

mejora de hasta un 2% en la clasificación Few Shot de cola larga. Esto suena muy técnico. ¿Qué

12:29

significa exactamente? Es uno de los resultados más interesantes y, como dices, contraintuitivos.

12:35

La clasificación Few Shot de cola larga es básicamente el reto de identificar categorías

12:41

muy pocos ejemplos. Entiendo. Piensa en un sistema que tiene que identificar miles de

12:45

especies de animales. Pero para una especie de mariposa muy rara, solo tiene dos fotos.

12:50

Un problema increíblemente difícil y muy común en el mundo real. Exacto. La hipótesis de por qué

12:56

MRL ayuda aquí es fascinante. Parece que las representaciones más pequeñas, las muñecas

13:01

interiores, al ser forzadas a resumir la información, capturan las características

13:05

más generales, robustas y abstractas. El concepto de mariposa, por así decirlo. Y cuando

13:11

tienes muy pocos ejemplos, apoyarte en esas características generales es más efectivo.

13:15

Que intentar aprender de los detalles súper específicos que podrían estar en la representación

13:20

más grande. Justo. Es un doble tanto. No solo eres más eficiente, sino que mejoras en los casos

13:27

más difíciles. Y para rematar, subrayan que estas representaciones son igual de robustas

13:33

que las originales. No se pierde fiabilidad. Fundamental. Pero esto es un truco que solo

13:39

funciona con imágenes. Para nada.

13:41

Y esa es otra de las grandes fortalezas del paper. Demuestran la versatilidad de la idea

13:45

aplicándola a un abanico enorme de arquitecturas y modalidades de datos.

13:50

Vale.

13:51

Lo validan en visión, con modelos clásicos como ResNet y más modernos como los Vision

13:55

Transformers, los BIT. Lo prueban en lenguaje, con el archiconocido modelo BERT.

14:00

E incluso van un paso más allá.

14:02

Y lo aplican en modelos multimodales, que entienden a la vez imágenes y texto. Como

14:07

Align.

14:08

Y todo esto no en datasets de juguete, sino en...

14:11

En conjuntos de datos a escala web, como ImageNet o JFT, que tienen millones y millones

14:17

de ejemplos.

14:18

Correcto. Esto es una señal muy clara para la comunidad científica y para la industria.

14:22

El mensaje es...

14:24

Esto no es un experimento de laboratorio. Es una técnica robusta, validada a gran escala

14:29

y lista para ser implementada en producción.

14:32

Vale. Llegados a este punto, está claro que la idea es potente. Pero toda solución

14:37

suele tener sus contrapartidas. ¿Hay alguna limitación? ¿Es MRT?

14:41

¿RL la solución perfecta para todo?

14:43

Es una pregunta muy pertinente. Los propios autores son honestos al respecto. La técnica

14:49

no es perfecta.

14:50

Ajá.

14:50

Reconocen que para las representaciones más pequeñas, las muñecas más internas, sí

14:55

que existe una pequeña pero medible pérdida de precisión.

14:58

¿Comparado con qué?

14:59

Si las comparas con un modelo que hubiera sido entrenado específicamente para esta

15:03

dimensión tan pequeña desde el principio.

15:05

O sea, que una matrioska de 128 dimensiones es muy buena, pero un modelo específico,

15:11

especializado, entrenado, solo para 128 dimensiones, podría ser ligeramente mejor.

15:17

Podría serlo. El truco, y el motivo por el que MRL es tan valioso, es que esa pérdida

15:23

de rendimiento es mínima.

15:25

A menudo insignificante.

15:27

Mientras que el beneficio que obtienes en flexibilidad y en no tener que entrenar 10

15:31

modelos distintos es absolutamente gigantesco. El balance es abrumadoramente positivo.

15:36

Entonces, si tuviéramos que resumir la gran aportación, la palabra clave…

15:41

La palabra clave que se me viene a la mente es adaptabilidad.

15:44

Sí.

15:44

Es un cambio de paradigma. Pasamos de la filosofía rígida de un tamaño para todos a una mucho

15:51

más inteligente, de un tamaño para cada necesidad.

15:54

Y todo ello dentro de un único modelo entrenado una sola vez. Es la síntesis perfecta. MRL

16:00

integra la eficiencia y la flexibilidad en el núcleo mismo del aprendizaje.

16:05

No es un parche.

16:06

No es un parche, no es una compresión posterior. Es una propiedad fundamental de la representación.

16:11

Desde su concepción, es como diseñar un motor que, por su propia naturaleza, puede funcionar en

16:16

modo eco, normal o sport.

16:19

En lugar de construir tres motores distintos.

16:21

Exacto. Una idea que parece abrir un campo de posibilidades enorme. Y esto me lleva a la

16:27

pregunta que planteabas al principio. Si hemos conseguido hornear la eficiencia computacional

16:32

directamente en las representaciones, ¿qué otras capacidades podríamos integrar de la misma manera?

16:37

Esa es la pregunta del millón. Y la que hace que este paper sea

16:41

tan inspirador. Podríamos diseñar representaciones que fueran inherentemente más justas, para mitigar

16:47

sesgos.

16:48

O más interpretables.

16:49

O más interpretables, para que podamos entender mejor por qué toman una decisión. Quizás

16:54

representaciones que tuvieran capas de privacidad, donde la parte más externa fuera anónima.

17:00

Y solo ciertas aplicaciones pudieran acceder a las capas internas más detalladas.

17:05

Abre una nueva forma de pensar sobre qué propiedades deseables podemos construir en

17:11

las representaciones de la IA.

17:12

Una perspectiva fascinante. Sin duda, Matryoshka Representation Learning es un ejemplo perfecto de una idea elegante, inspirada en un objeto casi infantil.

17:22

Totalmente.

17:23

Que resulta ser profundamente práctica y con un potencial transformador enorme.

17:27

Es la belleza de la investigación en su máxima expresión.

17:30

Ha sido un análisis fascinante. Y mañana tenemos otro paper que no se queda atrás. Vamos a explorar una idea que redefinió por completo la forma en que los modelos de lenguaje entienden y generan.

17:42

Sentando las bases de mucho de lo que vemos hoy.

17:44

En los asistentes virtuales y los chatbots más avanzados. No se lo pueden perder.

17:50

Y como pensamiento final, el concepto de Matryoshka nos deja con una reflexión.

17:55

Quizás el futuro no está en la carrera armamentística de entrenar modelos cada vez más gigantes para luego intentar hacerlos más pequeños a la fuerza.

18:03

Sino que quizás el futuro está en enseñar a los modelos a ser inherentemente flexibles, modulares y eficientes.

18:11

Desde su concepción. En cada una de sus capas.

18:14

Un punto de vista muy potente.

18:16

Con esa idea nos despedimos por hoy. Gracias por acompañarnos en este análisis.

18:21

Hasta mañana.

18:33

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

18:38

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E023_Muñecas rusas o Cómo esconder IAs gigantes en embeddings diminutos

Episode description

Persons