E014_La arquitectura Transformer que arrancó la revolución de la IA

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Oye, una pregunta que llevo dándole vueltas últimamente.

0:40

¿Cómo es posible que la inteligencia artificial así de repente empezara a escribir poemas, a programar, a tener conversaciones que parecen humanas?

0:50

Es una muy buena pregunta.

0:52

Es que yo recuerdo que hasta hace nada le pedías que tradujera una frase y bueno, con suerte lo hacía bien.

0:58

Algo tuvo que pasar, un punto de inflexión.

1:01

Sí, y lo hubo. La respuesta es muy concreta. Tiene fecha y lugar. El año 2017.

1:06

Antes de eso, la IA estaba, por decirlo de alguna manera, metida...

1:10

En un callejón sin salida.

1:12

Exacto. Y la llave para salir de ahí fue una arquitectura con un nombre que suena a ciencia ficción. El Transformer.

1:18

Y ese es justo el análisis que vamos a hacer hoy. Queremos desentrañar qué son, por qué lo cambiaron todo y, sobre todo, qué está surgiendo ya en 2026 para superarlos.

1:29

Todo esto basándonos en un informe técnico que es fascinante.

1:32

Pues sí. Y para entender por qué el Transformer fue tan genial, lo primero es entender bien ese callejón sin salida.

1:39

Los modelos de antes, las famosas RNS, tenían una limitación de diseño que les impedía... bueno, les impedía crecer.

1:47

Vale. Pero eso en la práctica, ¿qué significaba? Si yo le daba un párrafo largo a una IA de 2015, se perdía por el camino. ¿Era ese el problema?

1:57

Exactamente ese. Imagina que intentas resumir una película viéndola a través de la rendija de una puerta. Leían palabra por palabra. De forma secuencial.

2:05

Claro. Y eso creaba dos problemas gigantes.

2:09

Primero, el que dices. La memoria. Se olvidaban del principio de las frases. Para cuando llegaban al final de un párrafo, no recordaban el contexto del inicio. Una especie de amnesia a corto plazo.

2:21

Justo. Y el segundo problema era la velocidad. Eran lentísimos. Como tenían que procesar una palabra para poder leer la siguiente, no había forma de acelerar nada. Era un cuello de botella monumental.

2:33

Vale. Estaba totalmente atascada. Amnesia y lentitud. Un desastre.

2:39

Entonces, ¿cuál fue el chispazo que lo cambió todo?

2:44

El chispazo fue un artículo científico. Un paper publicado por ocho investigadores de Google en 2017. Y el título ya era toda una declaración de intenciones.

2:54

Attention is all you need. La atención es todo lo que necesitas.

2:58

Exacto. La innovación clave fue esa. Un concepto que llamaron mecanismo de atención. Y rompía por completo con la idea de leer palabra por palabra.

3:08

Exacto. Y aquí hay un dato que he leído en un libro.

3:09

Es que es alucinante. De esos ocho investigadores, a día de hoy, en 2026, casi ninguno sigue en Google.

3:18

Espera, espera. ¿Me estás diciendo que la gente que inventó la tecnología que define la IA moderna se fue de la empresa que la financió? Es increíble.

3:28

Es como si el equipo que diseñó el iPhone se hubiera ido de Apple en 2008 para fundar la competencia.

3:34

Es una comparación muy buena. Vieron el potencial de lo que habían creado.

3:39

Decidieron montar sus propias empresas. De ahí salieron gigantes como Cogere, Character.ai.

3:45

Madre mía. Es como si hubieran descubierto el fuego y cada uno se llevara una antorcha para fundar su propia civilización.

3:52

Pero volvamos al fuego en sí, a esa idea central. El mecanismo de atención. Venga, vamos al grano. ¿En qué consiste exactamente? ¿Cómo funciona eso de la atención?

4:03

A ver, la mejor forma de entenderlo es con una analogía. Pensemos en los modelos antiguos.

4:09

Las RNs.

4:09

Las RNs, como un bibliotecario. Muy meticuloso, pero con poca memoria.

4:14

Vale.

4:15

Lee un libro palabra por palabra, en orden, de la primera a la última. Si el libro es muy largo, cuando llega al final, pues es probable que no recuerde bien los detalles del primer capítulo.

4:25

Es secuencial y limitado, lo de mirar por la rendija de la puerta.

4:29

Exacto. Ahora el Transformer. No es un bibliotecario, es alguien con memoria fotográfica.

4:35

Ah.

4:36

No lee palabra por palabra. Le echa un vistazo a la página entera.

4:39

De golpe. Y de forma instantánea traza como unas conexiones invisibles entre las palabras más importantes, sin importar si están al principio, en medio o al final.

4:48

O sea que en lugar de seguir un caminito estrecho, ve todo el mapa a la vez y entiende cómo se conectan los puntos entre sí.

4:55

Precisamente. En el informe hay un ejemplo perfecto con la frase, el banco denegó el préstamo porque éste no tenía fondos.

5:02

Un modelo antiguo podría dudar, ¿este es el préstamo o el banco?

5:06

Claro.

5:06

Y así entiende el significado.

5:09

Ve el bosque entero, no solo los árboles uno a uno.

5:13

Entendido. La atención resuelve el problema de la memoria, de ver el bosque entero. Pero sigo dándole vueltas al otro cuello de botella. ¿La velocidad?

5:23

Si ahora tiene que calcular las conexiones de cada palabra con todas las demás, a mí me suena que debería ser incluso más lento, no más rápido. ¿Qué me estoy perdiendo?

5:34

Ahí está la segunda genialidad del diseño, y la que de verdad abrió la puerta a todo lo que vemos hoy.

5:39

Es una objeción muy lógica.

5:40

Claro.

5:41

Pero la clave es que, al no tener que leer en orden, los transformers permitieron por primera vez usar miles de procesadores, las GPUs, a la vez, para entrenar un solo modelo.

5:51

¡Ah!

5:52

Si la información no tiene que ser procesada secuencialmente, puedes dividir el trabajo entre miles de trabajadores que operan a la vez.

5:59

Claro. Es como pasar de construir una casa ladrillo a ladrillo con una sola persona a tener mil obreros trabajando en paralelo en distintas partes del edificio.

6:07

Esa analogía es perfecta.

6:09

Y el mecanismo de atención sería el plano, que permite que todos trabajen a la vez porque todos ven el plan completo.

6:17

Exacto. Y esto fue lo que permitió a empresas como OpenAI o Google hacer algo impensable, alimentar estos modelos con todo Internet, básicamente.

6:27

Con la tecnología anterior, aunque tuvieras los datos, el método secuencial lo habría hecho imposible. Habría tardado siglos.

6:33

Y esa capacidad de procesarlo todo en paralelo es el motor de lo que vemos hoy en 2026, ¿no?

6:38

Es el motor de lo que vemos hoy en 2026.

6:39

Es el motor de todo, de los grandes modelos de lenguaje como GPT-4, Cloud, Gemini. Pero lo interesante es que la idea ha saltado del texto a lo visual.

6:47

A los generadores de imágenes y vídeo.

6:49

Eso es. Modelos como Sora ya no usan las arquitecturas antiguas, sino una variante llamada Diffusion Transformer.

6:55

Que aplica la misma lógica de atención a los píxeles, supongo.

6:59

La misma. El modelo presta atención a todas las partes de la imagen o del vídeo a la vez. Por eso ahora los vídeos generados tienen coherencia.

7:06

Si un coche aparece en un fotograma, el sistema entiende que debe seguir trabajando.

7:09

El sistema entiende que debe seguir existiendo y moverse de forma lógica en los siguientes.

7:12

Hay una consistencia que antes era imposible, ¿es verdad?

7:14

Exacto.

7:15

Parece una tecnología perfecta. Resolvió la memoria, la velocidad, ha saltado del texto a la imagen.

7:21

Pero claro, el informe deja muy claro que tiene problemas. Y algunos bastante graves. No todo iba a ser tan bonito.

7:27

No. No lo es. A pesar de su éxito, los Transformers arrastran un talón de Aquiles enorme.

7:34

Un problema técnico y económico que está definiendo toda la investigación actual.

7:38

Se llama la complejidad cuadrática.

7:41

Suena caro.

7:42

Y lo es. Vaya que sí lo es. La idea es sencilla. Imagina que le das a un Transformer un texto de 100 palabras. El coste computacional es, digamos, 10.

7:53

Vale.

7:53

Si le das un texto el doble de largo, de 200 palabras, esperarías que el coste fuera 20, ¿no? El doble.

8:00

Sí. Sería lo lógico.

8:01

Pues no. El coste no se duplica, se cuadruplica. Pasa a ser 40.

8:07

Si triplicas el texto…

8:08

El coste se multiplica por 9. Es una escalada insostenible.

8:12

Madre mía. Ahora entiendo por qué es tan caro y tan difícil que los chats recuerden conversaciones largas o que analicen un libro entero.

8:20

Al cabo de un rato parece que tienen amnesia otra vez. Es que el coste se dispara.

8:23

Exacto. Y este problema del coste es el más grande. Pero el informe señala otros dos. El primero, las famosas alucinaciones.

8:33

Ah, sí. El clásico momento en el que se inventa un dato y lo dice con una seguridad.

8:38

La seguridad pasmosa. El loro estocástico, que le llaman.

8:42

Buena definición. Hay que recordar que es un modelo probabilístico, no factual. No está diseñado para decir la verdad, sino para sonar creíble. Imita patrones, no entiende lo que dice.

8:54

Y el otro problema que menciona el informe es el consumo energético, claro.

8:59

Que está directamente ligado a la complejidad cuadrática. Entrenar estos modelos requiere centros de datos del tamaño de una ciudad pequeña.

9:07

El consumo de energía y agua es brutal. Es un modelo de crecimiento con serios problemas de sostenibilidad.

9:14

Entonces el panorama es, los transformers son potentísimos, pero caros, ineficientes y contaminantes.

9:21

Y aquí es donde, según el informe, empieza la nueva carrera. ¿Cuáles son las alternativas en 2026?

9:27

Aquí es donde la historia se pone muy interesante.

9:30

Toda la industria está buscando cómo superar lo que el informe llama la tiranía de la complejidad cuadrática.

9:35

Y hay varias corrientes.

9:37

La primera, y la que más ruido está haciendo, son los modelos de espacio de estado, o SSM. El nombre más famoso aquí es Mamba.

9:45

Mamba. ¿Y qué tiene de especial para generar tanto revuelo?

9:49

Pues que ha conseguido resolver el problema de raíz. Tiene una complejidad lineal.

9:54

A ver, ¿eso significa que si duplicas el texto…?

9:57

El coste ahora sí. Simplemente se duplica. No se cuadrúplica.

10:01

Vaya.

10:02

Esto lo cambia todo.

10:04

De repente puedes analizar textos larguísimos con un coste subyacente.

10:07

Más sostenible y a una velocidad muchísimo mayor. Son radicalmente más eficientes.

10:12

O sea que esto suena a que es el fin del Transformer. El rey ha muerto. Bueno, no tan rápido.

10:18

Aquí entra la segunda corriente, que es la más pragmática y la que domina ahora mismo.

10:24

Las arquitecturas híbridas. Un modelo conocido es Jamba. La idea no es matar al Transformer.

10:31

Sino combinarlo.

10:33

Exacto. O sea que no es una guerra. Es más bien un matrimonio de conveniencia.

10:37

Lo has definido perfectamente. Estos modelos híbridos usan capas de Transformer, que siguen

10:42

siendo las mejores para el razonamiento complejo, y las combinan con capas de Mamba, que son

10:47

súper eficientes para la memoria a largo plazo.

10:50

Lo mejor de los dos mundos. Usan a Mamba para recordar y al Transformer para pensar.

10:55

Es una solución de ingeniería muy inteligente, ¿sí?

10:58

Vale. Tenemos a los puristas de Mamba y a los pragmáticos de los híbridos. ¿Hay alguna

11:04

otra vía?

11:05

Sí. Hay una tercera vía, más conceptual.

11:07

Una visión de futuro. Es la que defiende gente como Jan LeCun, el jefe de IA de Meta.

11:13

Se conoce como JEPA.

11:14

El nombre es bastante más intimidante que Mamba, desde luego. ¿Qué propone?

11:19

Propone un cambio de paradigma total. LeCun dice que el problema de fondo es que los

11:22

modelos actuales sólo aprenden a predecir la siguiente palabra. Son loros, como decíamos.

11:27

Sí.

11:28

Su idea es que la próxima IA debería aprender como un humano. Observando el mundo y construyendo

11:33

un modelo interno de cómo funciona. Eso sigue sonando muy abstracto.

11:37

Un ejemplo.

11:38

En lugar de predecir la siguiente palabra en la frase «el gato se sentó en la…», un

11:43

modelo JEPA ha visto miles de vídeos de gatos, entiende que los gatos son sólidos, que no

11:48

atraviesan paredes, que la gravedad existe, claro.

11:52

Su modelo interno del mundo le diría que la siguiente palabra tiene que ser alfombra,

11:56

silla o sofá, no porque sea estadísticamente probable, sino porque entiende la física

12:02

del mundo que describe. Busca que la IA aprenda conceptos, no sólo patrones de texto.

12:07

Vale, vale, lo pillo. Es pasar de ser un experto en lenguaje a ser un aprendiz del

12:13

mundo real. Es un salto cualitativo enorme.

12:16

Enorme.

12:17

Entonces, para recapitular, hemos viajado desde esa IA olvidadiza y lenta de antes

12:23

de 2017, pasando por la revolución de la atención que nos trajo los transformers,

12:28

hasta la encrucijada actual de 2026. Y ahora parece que la eficiencia se ha convertido

12:34

en el nuevo santo grial.

12:36

Absolutamente. La era de la fuerza bruta, de hacer modelos más y más grandes, está

12:41

llegando a su límite económico y medioambiental.

12:44

La batalla ya no es sólo por crear modelos más gigantescos, sino más inteligentes,

12:49

más eficientes. Y ahí es donde entran Mamba y los modelos híbridos.

12:54

Así es. Esa tensión entre la potencia bruta del transformer y su coste insostenible es

12:58

el motor que está impulsando toda la innovación ahora mismo. Es la gran historia de la IA

13:02

en estos momentos. Una nueva carrera espacial por la eficiencia.

13:05

Una nueva carrera espacial por la eficiencia. Una nueva carrera espacial por la eficiencia.

13:06

Una carrera fascinante, desde luego.

13:08

Y nos deja con una pregunta final, que va más allá de la ingeniería. Hemos hablado

13:12

mucho de eficiencia, de costes. Pero la pregunta de fondo que plantea esa tercera vía, la

13:18

de Lecun, es otra. Si la próxima generación de IA aprende entendiendo conceptos abstractos

13:24

del mundo en lugar de sólo predecir texto, empezará a desarrollar algo parecido al

13:29

sentido común. Y si lo hace, ¿cómo nos daremos cuenta? Estaríamos hablando no ya

13:34

de una mejora en la tecnología, sino de una mejora en la tecnología, sino de una

13:36

mejora en la tecnología, sino de un cambio fundamental en la naturaleza de la propia

13:38

inteligencia artificial.

13:39

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:04

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.

E014_La arquitectura Transformer que arrancó la revolución de la IA

Episode description

Persons