E014_La arquitectura Transformer que arrancó la revolución de la IA
Ep. 14

E014_La arquitectura Transformer que arrancó la revolución de la IA

Episode description

¿Te has preguntado cómo la IA pasó de tropezar con frases simples a escribir ensayos complejos y generar vídeo? 🤖 Antes de 2017, las máquinas leían “por una rendija”, palabra por palabra, olvidando a menudo el principio de la frase al llegar al final. Todo cambió con el paper legendario “Attention Is All You Need”. En este episodio, destripamos la arquitectura Transformer, el verdadero motor que impulsa a gigantes actuales como GPT-4, Claude y Sora. 🚀 Descubre cómo el mecanismo de Self-Attention 🧠 dotó a las máquinas de una “memoria fotográfica”, permitiéndoles procesar todo el contexto de golpe y paralelizar el aprendizaje masivo. Pero la tecnología no se detiene y los Transformers no son perfectos. 🛑 Analizamos su talón de Aquiles: un coste computacional que se dispara y un consumo energético voraz. ⚡ ¿Qué viene después? Miramos hacia el horizonte (2025-2026) para presentarte a los sucesores que buscan romper estas barreras: desde las arquitecturas Mamba 🐍 y modelos híbridos como Jamba, hasta la visión de JEPA propuesta por Yann LeCun. Si quieres entender la ingeniería detrás del hype y saber hacia dónde evoluciona la próxima generación de IA, dale al play ▶️ y acompáñanos en este viaje técnico y fascinante.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Oye, una pregunta que llevo dándole vueltas últimamente.

0:40

¿Cómo es posible que la inteligencia artificial así de repente empezara a escribir poemas, a programar, a tener conversaciones que parecen humanas?

0:50

Es una muy buena pregunta.

0:52

Es que yo recuerdo que hasta hace nada le pedías que tradujera una frase y bueno, con suerte lo hacía bien.

0:58

Algo tuvo que pasar, un punto de inflexión.

1:01

Sí, y lo hubo. La respuesta es muy concreta. Tiene fecha y lugar. El año 2017.

1:06

Antes de eso, la IA estaba, por decirlo de alguna manera, metida...

1:10

En un callejón sin salida.

1:12

Exacto. Y la llave para salir de ahí fue una arquitectura con un nombre que suena a ciencia ficción. El Transformer.

1:18

Y ese es justo el análisis que vamos a hacer hoy. Queremos desentrañar qué son, por qué lo cambiaron todo y, sobre todo, qué está surgiendo ya en 2026 para superarlos.

1:29

Todo esto basándonos en un informe técnico que es fascinante.

1:32

Pues sí. Y para entender por qué el Transformer fue tan genial, lo primero es entender bien ese callejón sin salida.

1:39

Los modelos de antes, las famosas RNS, tenían una limitación de diseño que les impedía... bueno, les impedía crecer.

1:47

Vale. Pero eso en la práctica, ¿qué significaba? Si yo le daba un párrafo largo a una IA de 2015, se perdía por el camino. ¿Era ese el problema?

1:57

Exactamente ese. Imagina que intentas resumir una película viéndola a través de la rendija de una puerta. Leían palabra por palabra. De forma secuencial.

2:05

Claro. Y eso creaba dos problemas gigantes.

2:09

Primero, el que dices. La memoria. Se olvidaban del principio de las frases. Para cuando llegaban al final de un párrafo, no recordaban el contexto del inicio. Una especie de amnesia a corto plazo.

2:21

Justo. Y el segundo problema era la velocidad. Eran lentísimos. Como tenían que procesar una palabra para poder leer la siguiente, no había forma de acelerar nada. Era un cuello de botella monumental.

2:33

Vale. Estaba totalmente atascada. Amnesia y lentitud. Un desastre.

2:39

Entonces, ¿cuál fue el chispazo que lo cambió todo?

2:44

El chispazo fue un artículo científico. Un paper publicado por ocho investigadores de Google en 2017. Y el título ya era toda una declaración de intenciones.

2:54

Attention is all you need. La atención es todo lo que necesitas.

2:58

Exacto. La innovación clave fue esa. Un concepto que llamaron mecanismo de atención. Y rompía por completo con la idea de leer palabra por palabra.

3:08

Exacto. Y aquí hay un dato que he leído en un libro.

3:09

Es que es alucinante. De esos ocho investigadores, a día de hoy, en 2026, casi ninguno sigue en Google.

3:18

Espera, espera. ¿Me estás diciendo que la gente que inventó la tecnología que define la IA moderna se fue de la empresa que la financió? Es increíble.

3:28

Es como si el equipo que diseñó el iPhone se hubiera ido de Apple en 2008 para fundar la competencia.

3:34

Es una comparación muy buena. Vieron el potencial de lo que habían creado.

3:39

Decidieron montar sus propias empresas. De ahí salieron gigantes como Cogere, Character.ai.

3:45

Madre mía. Es como si hubieran descubierto el fuego y cada uno se llevara una antorcha para fundar su propia civilización.

3:52

Pero volvamos al fuego en sí, a esa idea central. El mecanismo de atención. Venga, vamos al grano. ¿En qué consiste exactamente? ¿Cómo funciona eso de la atención?

4:03

A ver, la mejor forma de entenderlo es con una analogía. Pensemos en los modelos antiguos.

4:09

Las RNs.

4:09

Las RNs, como un bibliotecario. Muy meticuloso, pero con poca memoria.

4:14

Vale.

4:15

Lee un libro palabra por palabra, en orden, de la primera a la última. Si el libro es muy largo, cuando llega al final, pues es probable que no recuerde bien los detalles del primer capítulo.

4:25

Es secuencial y limitado, lo de mirar por la rendija de la puerta.

4:29

Exacto. Ahora el Transformer. No es un bibliotecario, es alguien con memoria fotográfica.

4:35

Ah.

4:36

No lee palabra por palabra. Le echa un vistazo a la página entera.

4:39

De golpe. Y de forma instantánea traza como unas conexiones invisibles entre las palabras más importantes, sin importar si están al principio, en medio o al final.

4:48

O sea que en lugar de seguir un caminito estrecho, ve todo el mapa a la vez y entiende cómo se conectan los puntos entre sí.

4:55

Precisamente. En el informe hay un ejemplo perfecto con la frase, el banco denegó el préstamo porque éste no tenía fondos.

5:02

Un modelo antiguo podría dudar, ¿este es el préstamo o el banco?

5:06

Claro.

5:06

Y así entiende el significado.

5:09

Ve el bosque entero, no solo los árboles uno a uno.

5:13

Entendido. La atención resuelve el problema de la memoria, de ver el bosque entero. Pero sigo dándole vueltas al otro cuello de botella. ¿La velocidad?

5:23

Si ahora tiene que calcular las conexiones de cada palabra con todas las demás, a mí me suena que debería ser incluso más lento, no más rápido. ¿Qué me estoy perdiendo?

5:34

Ahí está la segunda genialidad del diseño, y la que de verdad abrió la puerta a todo lo que vemos hoy.

5:39

Es una objeción muy lógica.

5:40

Claro.

5:41

Pero la clave es que, al no tener que leer en orden, los transformers permitieron por primera vez usar miles de procesadores, las GPUs, a la vez, para entrenar un solo modelo.

5:51

¡Ah!

5:52

Si la información no tiene que ser procesada secuencialmente, puedes dividir el trabajo entre miles de trabajadores que operan a la vez.

5:59

Claro. Es como pasar de construir una casa ladrillo a ladrillo con una sola persona a tener mil obreros trabajando en paralelo en distintas partes del edificio.

6:07

Esa analogía es perfecta.

6:09

Y el mecanismo de atención sería el plano, que permite que todos trabajen a la vez porque todos ven el plan completo.

6:17

Exacto. Y esto fue lo que permitió a empresas como OpenAI o Google hacer algo impensable, alimentar estos modelos con todo Internet, básicamente.

6:27

Con la tecnología anterior, aunque tuvieras los datos, el método secuencial lo habría hecho imposible. Habría tardado siglos.

6:33

Y esa capacidad de procesarlo todo en paralelo es el motor de lo que vemos hoy en 2026, ¿no?

6:38

Es el motor de lo que vemos hoy en 2026.

6:39

Es el motor de todo, de los grandes modelos de lenguaje como GPT-4, Cloud, Gemini. Pero lo interesante es que la idea ha saltado del texto a lo visual.

6:47

A los generadores de imágenes y vídeo.

6:49

Eso es. Modelos como Sora ya no usan las arquitecturas antiguas, sino una variante llamada Diffusion Transformer.

6:55

Que aplica la misma lógica de atención a los píxeles, supongo.

6:59

La misma. El modelo presta atención a todas las partes de la imagen o del vídeo a la vez. Por eso ahora los vídeos generados tienen coherencia.

7:06

Si un coche aparece en un fotograma, el sistema entiende que debe seguir trabajando.

7:09

El sistema entiende que debe seguir existiendo y moverse de forma lógica en los siguientes.

7:12

Hay una consistencia que antes era imposible, ¿es verdad?

7:14

Exacto.

7:15

Parece una tecnología perfecta. Resolvió la memoria, la velocidad, ha saltado del texto a la imagen.

7:21

Pero claro, el informe deja muy claro que tiene problemas. Y algunos bastante graves. No todo iba a ser tan bonito.

7:27

No. No lo es. A pesar de su éxito, los Transformers arrastran un talón de Aquiles enorme.

7:34

Un problema técnico y económico que está definiendo toda la investigación actual.

7:38

Se llama la complejidad cuadrática.

7:41

Suena caro.

7:42

Y lo es. Vaya que sí lo es. La idea es sencilla. Imagina que le das a un Transformer un texto de 100 palabras. El coste computacional es, digamos, 10.

7:53

Vale.

7:53

Si le das un texto el doble de largo, de 200 palabras, esperarías que el coste fuera 20, ¿no? El doble.

8:00

Sí. Sería lo lógico.

8:01

Pues no. El coste no se duplica, se cuadruplica. Pasa a ser 40.

8:07

Si triplicas el texto…

8:08

El coste se multiplica por 9. Es una escalada insostenible.

8:12

Madre mía. Ahora entiendo por qué es tan caro y tan difícil que los chats recuerden conversaciones largas o que analicen un libro entero.

8:20

Al cabo de un rato parece que tienen amnesia otra vez. Es que el coste se dispara.

8:23

Exacto. Y este problema del coste es el más grande. Pero el informe señala otros dos. El primero, las famosas alucinaciones.

8:33

Ah, sí. El clásico momento en el que se inventa un dato y lo dice con una seguridad.

8:38

La seguridad pasmosa. El loro estocástico, que le llaman.

8:42

Buena definición. Hay que recordar que es un modelo probabilístico, no factual. No está diseñado para decir la verdad, sino para sonar creíble. Imita patrones, no entiende lo que dice.

8:54

Y el otro problema que menciona el informe es el consumo energético, claro.

8:59

Que está directamente ligado a la complejidad cuadrática. Entrenar estos modelos requiere centros de datos del tamaño de una ciudad pequeña.

9:07

El consumo de energía y agua es brutal. Es un modelo de crecimiento con serios problemas de sostenibilidad.

9:14

Entonces el panorama es, los transformers son potentísimos, pero caros, ineficientes y contaminantes.

9:21

Y aquí es donde, según el informe, empieza la nueva carrera. ¿Cuáles son las alternativas en 2026?

9:27

Aquí es donde la historia se pone muy interesante.

9:30

Toda la industria está buscando cómo superar lo que el informe llama la tiranía de la complejidad cuadrática.

9:35

Y hay varias corrientes.

9:37

La primera, y la que más ruido está haciendo, son los modelos de espacio de estado, o SSM. El nombre más famoso aquí es Mamba.

9:45

Mamba. ¿Y qué tiene de especial para generar tanto revuelo?

9:49

Pues que ha conseguido resolver el problema de raíz. Tiene una complejidad lineal.

9:54

A ver, ¿eso significa que si duplicas el texto…?

9:57

El coste ahora sí. Simplemente se duplica. No se cuadrúplica.

10:01

Vaya.

10:02

Esto lo cambia todo.

10:04

De repente puedes analizar textos larguísimos con un coste subyacente.

10:07

Más sostenible y a una velocidad muchísimo mayor. Son radicalmente más eficientes.

10:12

O sea que esto suena a que es el fin del Transformer. El rey ha muerto. Bueno, no tan rápido.

10:18

Aquí entra la segunda corriente, que es la más pragmática y la que domina ahora mismo.

10:24

Las arquitecturas híbridas. Un modelo conocido es Jamba. La idea no es matar al Transformer.

10:31

Sino combinarlo.

10:33

Exacto. O sea que no es una guerra. Es más bien un matrimonio de conveniencia.

10:37

Lo has definido perfectamente. Estos modelos híbridos usan capas de Transformer, que siguen

10:42

siendo las mejores para el razonamiento complejo, y las combinan con capas de Mamba, que son

10:47

súper eficientes para la memoria a largo plazo.

10:50

Lo mejor de los dos mundos. Usan a Mamba para recordar y al Transformer para pensar.

10:55

Es una solución de ingeniería muy inteligente, ¿sí?

10:58

Vale. Tenemos a los puristas de Mamba y a los pragmáticos de los híbridos. ¿Hay alguna

11:04

otra vía?

11:05

Sí. Hay una tercera vía, más conceptual.

11:07

Una visión de futuro. Es la que defiende gente como Jan LeCun, el jefe de IA de Meta.

11:13

Se conoce como JEPA.

11:14

El nombre es bastante más intimidante que Mamba, desde luego. ¿Qué propone?

11:19

Propone un cambio de paradigma total. LeCun dice que el problema de fondo es que los

11:22

modelos actuales sólo aprenden a predecir la siguiente palabra. Son loros, como decíamos.

11:27

Sí.

11:28

Su idea es que la próxima IA debería aprender como un humano. Observando el mundo y construyendo

11:33

un modelo interno de cómo funciona. Eso sigue sonando muy abstracto.

11:37

Un ejemplo.

11:38

En lugar de predecir la siguiente palabra en la frase «el gato se sentó en la…», un

11:43

modelo JEPA ha visto miles de vídeos de gatos, entiende que los gatos son sólidos, que no

11:48

atraviesan paredes, que la gravedad existe, claro.

11:52

Su modelo interno del mundo le diría que la siguiente palabra tiene que ser alfombra,

11:56

silla o sofá, no porque sea estadísticamente probable, sino porque entiende la física

12:02

del mundo que describe. Busca que la IA aprenda conceptos, no sólo patrones de texto.

12:07

Vale, vale, lo pillo. Es pasar de ser un experto en lenguaje a ser un aprendiz del

12:13

mundo real. Es un salto cualitativo enorme.

12:16

Enorme.

12:17

Entonces, para recapitular, hemos viajado desde esa IA olvidadiza y lenta de antes

12:23

de 2017, pasando por la revolución de la atención que nos trajo los transformers,

12:28

hasta la encrucijada actual de 2026. Y ahora parece que la eficiencia se ha convertido

12:34

en el nuevo santo grial.

12:36

Absolutamente. La era de la fuerza bruta, de hacer modelos más y más grandes, está

12:41

llegando a su límite económico y medioambiental.

12:44

La batalla ya no es sólo por crear modelos más gigantescos, sino más inteligentes,

12:49

más eficientes. Y ahí es donde entran Mamba y los modelos híbridos.

12:54

Así es. Esa tensión entre la potencia bruta del transformer y su coste insostenible es

12:58

el motor que está impulsando toda la innovación ahora mismo. Es la gran historia de la IA

13:02

en estos momentos. Una nueva carrera espacial por la eficiencia.

13:05

Una nueva carrera espacial por la eficiencia. Una nueva carrera espacial por la eficiencia.

13:06

Una carrera fascinante, desde luego.

13:08

Y nos deja con una pregunta final, que va más allá de la ingeniería. Hemos hablado

13:12

mucho de eficiencia, de costes. Pero la pregunta de fondo que plantea esa tercera vía, la

13:18

de Lecun, es otra. Si la próxima generación de IA aprende entendiendo conceptos abstractos

13:24

del mundo en lugar de sólo predecir texto, empezará a desarrollar algo parecido al

13:29

sentido común. Y si lo hace, ¿cómo nos daremos cuenta? Estaríamos hablando no ya

13:34

de una mejora en la tecnología, sino de una mejora en la tecnología, sino de una

13:36

mejora en la tecnología, sino de un cambio fundamental en la naturaleza de la propia

13:38

inteligencia artificial.

13:39

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

14:04

Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.