E065_La_apuesta_radical_de_Groq_contra

0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas.

0:38

Bienvenidas, bienvenidos a un nuevo episodio de BIMPRAXIS.

0:42

Hoy os traemos el fascinante mundo de los

0:44

microchips de inteligencia artificial y la estrategia radical

0:47

de Grok para desafiar el dominio absoluto de

0:50

NVIDIA.

0:51

Bueno, y para empezar fuerte, pongámonos en situación.

0:54

Imagínate que tienes 10 millones de dólares sobre

0:57

la mesa, listos para entrar en tu cuenta

1:00

bancaria.

1:01

Y la única condición es no irte de

1:03

tu empresa, quedarte exactamente donde estás y vas

1:07

y dices que no.

1:08

Madre mía, 10 millones.

1:10

O sea, rechazar eso para fundar una startup

1:12

desde cero absoluto.

1:13

A ver, hay que tener una convicción casi

1:15

temeraria para dar un paso así.

1:17

Totalmente.

1:18

Y de esa certeza es de lo que

1:20

venimos a hablar en este análisis a fondo.

1:22

Hemos estado revisando dos entrevistas recientes y larguísimas

1:26

con Jonathan Ross, que es el CEO de

1:27

Grok, para intentar entender todo esto.

1:30

Toda la industria tecnológica parece estar enfocando mal

1:33

uno de los problemas más gordos de nuestra

1:35

era.

1:36

¿Y cómo poner el software primero puede cambiar

1:38

no sólo la economía, sino la geopolítica mundial?

1:41

Sí, sí, pero es que hay que contextualizar

1:43

quién es este hombre.

1:45

No es un ingeniero cualquiera.

1:47

Cuando estaba en Google, fue el creador del

1:49

TPU, la famosa unidad de procesamiento tensorial.

1:52

Claro, el chip de inteligencia artificial de Google.

1:55

Ese mismo.

1:56

Y fíjate que lo hizo dedicando el 20%

1:59

de su tiempo libre en esos proyectos paralelos

2:02

que dejaba hacer la empresa.

2:03

O sea, mientras todo el mundo se pedea

2:05

hoy por las tarjetas gráficas de siempre, las

2:07

GPUs, Grok está jugando a otra cosa.

2:10

A un ajedrez totalmente distinto, sí.

2:13

Y para entender de dónde sale el germen

2:14

de esta idea, hay una anécdota de 2012

2:17

en el comedor de Google que me parece,

2:19

vamos, buenísima.

2:20

Ya sé por dónde vas la historia del

2:21

modelo de voz.

2:22

Esa es.

2:24

Resulta que unos investigadores acaban de conseguir que

2:26

una IA reconozca la voz humana mejor que

2:28

una persona.

2:29

Un hito brutal.

2:31

Pero estaban amargados.

2:32

Claro, porque tenían el modelo entrenado, pero ponerlo

2:35

a funcionar en la vida real para millones

2:36

de usuarios era económicamente imposible.

2:39

Costaba una barbaridad en potencia de cálculo.

2:42

Y ahí entra Ross y crea el TPU

2:43

para solucionar ese cuello de botella.

2:46

Pero lo fuerte es cuando se va de

2:47

Google.

2:47

Porque se da cuenta de que si monta

2:49

una empresa nueva y hace un chip copiando

2:51

el enfoque tradicional, centrándose solo en la fuerza

2:54

bruta del hardware, se la va a pegar.

2:56

Se la pega seguro, por culpa del software.

2:59

O sea, para que te hagas una idea,

3:00

en empresas dominantes como NVIDIA puede haber 10.000

3:04

personas, 10.000, dedicadas solo a escribir kernels.

3:08

Espera, aclaremos esto un segundo.

3:11

Escribir kernels es básicamente programar a un nivel

3:13

bajísimo, ¿no?

3:15

Muy, muy cerca de la máquina física.

3:17

Exacto, código ensamblador puro y duro.

3:20

Es un trabajo hiperartesanal donde ajustas las matemáticas

3:23

a la forma física del silicio.

3:25

Y claro, ninguna startup puede contratar a 10.000

3:28

personas de golpe para igualar eso.

3:31

Ya, es imposible competir así de la noche

3:33

a la mañana.

3:34

Entonces Grok hace lo que la industria consideró

3:36

una herejía.

3:38

Se tiran los primeros seis meses construyendo un

3:40

compilador, o sea, software, antes de diseñar siquiera

3:44

la arquitectura del chip.

3:45

Es que suena a ciencia ficción.

3:48

Hicieron un modelo matemático perfecto de cómo debería

3:50

ser el hardware ideal para la IA, crearon

3:52

el software para ese modelo y luego ya

3:55

fabricaron el chip físico para que encajara como

3:57

un guante.

3:58

O sea, lo diseñaron para ser nativo en

4:00

la nube, en entornos serverless, que básicamente significa

4:03

que el desarrollador manda el código y no

4:06

tiene que pelearse con servidores ni gestionar la

4:08

memoria.

4:09

Funciona solo, sí.

4:10

La plataforma lo ejecuta de forma invisible.

4:13

Pues, a ver, haciendo una analogía.

4:15

Esto es como si te venden un coche

4:17

de Fórmula 1 hiper rápido, pero te dicen,

4:19

oye, construyete tú el circuito y ponle el

4:21

motor de arranque pieza por pieza.

4:23

Y Grok hace lo contrario.

4:25

Construye primero la pista y la telemetría.

4:27

Y luego hace un coche a medida para

4:29

que ruede solo.

4:30

Me encanta el ejemplo.

4:32

Es tal cual.

4:33

Pero esto me genera una duda razonable.

4:35

Si el software es el verdadero dolor de

4:37

cabeza, y hasta gigantes como Meta o Google

4:39

sufren con ello, ¿por qué absolutamente todas las

4:42

startups siguen cometiendo el error de empezar por

4:44

el silicio?

4:45

Por pura inercia cultural, la verdad.

4:47

A los ingenieros de hardware les apasiona el

4:50

hardware, les fascina buscar el nanosegundo de ventaja

4:53

física.

4:54

Pero Ross lo explica muy bien con un

4:56

escenario demoledor en las entrevistas.

4:58

¿Qué escenario plantea?

5:00

Pues imagina que haces el chip del futuro,

5:03

el más rápido de la historia.

5:04

Una maravilla.

5:05

pero si a los clientes les quitas una

5:07

sola función de software que ya usan hoy

5:09

en día, como el Speculative Decode o el

5:12

Prefix Caching, no te lo compra nadie.

5:15

Cero ventas, claro.

5:17

Nadie lo querría en sus centros de datos.

5:19

Oye, desgranemos un poco esos conceptos porque la

5:22

jerga técnica a veces asusta, y esto es

5:24

clave.

5:25

¿Qué es exactamente el Speculative Decode?

5:28

Es pura magia matemática, te lo prometo.

5:30

Básicamente la IA redacta en borrador varias palabras

5:33

futuras, las adivina, mientras todavía está procesando la

5:37

actual.

5:37

Si acierta, aprueba todo el bloca de golpe

5:39

y se ahorra muchísimo tiempo.

5:41

Ostras, qué bueno.

5:42

Es como ir rellenando el texto por adelantado.

5:45

¿Y el prefix caching qué hace?

5:48

Eso es guardar en memoria trozos de conversación

5:50

que se repiten mucho para que el modelo

5:52

no tenga que volver a leer todo el

5:54

historial cada vez que le haces una pregunta

5:55

nueva.

5:57

Son trucos 100% de software.

5:58

Si tu chip nuevo no soporta esto, su

6:00

rendimiento real se hunde.

6:02

Clarísimo.

6:03

O sea, el silicio sin software no es

6:05

nada.

6:06

Y bueno, una vez solucionado este problema inmenso,

6:09

llegamos a la máquina en sí, el chip

6:11

LPU de Grok, la unidad de procesamiento de

6:13

lenguaje.

6:15

Aquí es donde empieza la verdadera guerra técnica

6:17

contra las famosas GPU.

6:19

Contra las tarjetas gráficas, exacto.

6:21

Y la diferencia por la que una arquitectura

6:23

es superior a otra está en las matemáticas

6:25

de la inferencia, que es la fase de

6:27

responder a los usuarios.

6:29

Porque entrenar una IA es un problema distinto,

6:32

¿verdad?

6:32

Es un problema paralelo.

6:34

Eso es.

6:35

Al entrenar, coges trillones de datos y pones

6:37

a miles de chips a devorarlos a la

6:40

vez, cada uno por su lado.

6:42

Para eso, las GPUs, que nacieron para calcular

6:45

millones de píxeles en la pantalla de un

6:47

videojuego al mismo tiempo, son perfectas.

6:50

Pero la inferencia, cuando el modelo genera texto

6:52

palabra por palabra, es secuencial.

6:55

O sea, matemáticamente no puedes adivinar el token

6:58

100 de una frase sin haber calculado primero

7:00

el 99.

7:01

Imposible.

7:02

Tiene que ir en orden.

7:03

Hay un ejemplo en las fuentes que ilustra

7:04

esto a la perfección.

7:06

Imagina que encargas un informe súper importante.

7:08

Si pones a 10 personas a escribirlo a

7:10

la vez en habitaciones separadas y sin comunicarse.

7:13

Sale un Frankenstein, un desastre sin sentido.

7:16

Tal cual.

7:16

Eso representaría intentar usar una GPU para inferencia.

7:20

En cambio, si coges a una sola persona

7:21

brillante y la pones a escribir, revisar y

7:24

reescribir 10 veces en secuencia lógica, te sale

7:27

un informe impecable.

7:28

Y a una velocidad vertiginosa.

7:31

Esa es la esencia del LPU de Grok.

7:34

Y fíjate, para conseguir que el hardware ejecute

7:37

esa secuencia tan rápido, tomaron otra decisión drástica.

7:42

Quitaron por completo la memoria externa.

7:44

Adiós a la memoria externa, la famosa HBM.

7:47

Pero a ver, ¿por qué?

7:49

Si todas las tarjetas gráficas la usan.

7:51

Sí, pero es un problema puramente físico.

7:54

Los cables finísimos que conectan el procesador con

7:57

esa memoria externa funcionan en realidad como pequeños

8:00

condensadores eléctricos.

8:02

Uy, espera, detengámonos en la física de esto.

8:05

¿Qué significa a nivel práctico que actúen como

8:08

condensadores?

8:09

Pues que cada vez que quieres mandar un

8:11

1 o un 0 por ese cable, primero

8:13

tienes que llenarlo de electrones.

8:15

Tienes que cargarlo de electricidad para que la

8:17

señal llegue al otro lado y luego descargarlo.

8:20

Ah, o sea que cuanta más distancia hay

8:22

hasta la memoria externa, más energía desperdicias sólo

8:26

en cargar y descargar cables.

8:27

Exacto.

8:28

Gastas mucho más energía moviendo el dato de

8:31

un lado a otro que haciendo la operación

8:32

matemática en sí.

8:34

Por eso Grohe usa sólo memoria interna, la

8:37

SRAM.

8:38

El dato vive exactamente donde se hace el

8:40

cálculo.

8:41

O sea, viaja milímetros en vez de centímetros.

8:44

Y el impacto de rediseñar esto a gran

8:46

escala es asombroso.

8:49

En los fuentes explican que para correr un

8:50

modelo masivo como llama Maverick, no dividen el

8:53

trabajo a ver qué chip está libre.

8:55

No, no.

8:56

Conectan más de 3.000 microchips directamente entre sí.

9:00

Sin switches de red intermedio, sin nada.

9:02

Es como una línea de montaje en una

9:04

fábrica, ¿no?

9:05

El token viaja por el silicio de los

9:07

3.000 procesadores casi al instante, perfectamente coreografiado.

9:11

Y el efecto dominó que provoca no usar

9:13

memoria externa te cambia todo el sistema.

9:16

Al no desperdiciar electricidad moviendo datos, el consumo

9:20

se desploma.

9:21

Hablamos de gastar una tercera parte de la

9:23

energía por cada palabra.

9:24

Y esto, fíjate, soluciona el que seguramente sea

9:27

el mayor cuello de botilla de la IA

9:29

hoy en día.

9:30

El problema térmico.

9:31

La refrigeración.

9:33

Claro, porque montar un centro de datos basado

9:35

en tarjetas gráficas ahora mismo es una pesadilla,

9:38

que tarda años.

9:39

Necesitas permisos eléctricos bestiales y sistemas de refrigeración

9:44

líquida complejísimos porque los chips son auténticos hornos.

9:47

literalmente hornos industriales.

9:50

Sin embargo, Grok levantó un centro de datos

9:52

operativo en Finlandia en 34 días y otro

9:55

en Arabia Saudí en 51 días.

9:58

Es un ritmo de otro planeta.

10:00

Lo consiguen porque están aprovechando lo que la

10:02

industria desecha.

10:04

Como no necesitan esa refrigeración líquida tan extrema,

10:07

funcionan con aire.

10:09

Así que alquilan los espacios enormes refrigerados por

10:12

aire que los gigantes de la nube están

10:14

abandonando por obsoletos.

10:15

Los enchufan y en semanas están operando.

10:18

¡Qué pasada!

10:19

Y esto nos empuja directamente a un concepto

10:22

geopolítico muy fuerte, la IA soberana.

10:25

Un concepto que está cambiando las políticas de

10:28

Estado.

10:29

Países enteros como Canadá o Arabia Saudí se

10:32

han dado cuenta de que la capacidad de

10:34

computación es ahora mismo como las plantas de

10:37

energía en la revolución industrial.

10:38

Claro.

10:39

Si estás en plena revolución, depender de un

10:42

país vecino para que te dé la electricidad

10:44

que mueve tus fábricas es un suicidio.

10:46

Exactamente.

10:48

Estas naciones ven que la IA va a

10:50

ser el motor económico y se niegan a

10:52

depender de que cuatro corporaciones de Estados Unidos

10:55

decidan cuándo les toca comprar GPUs en una

10:58

lista de espera de años.

10:59

Quieren su infraestructura ya, bajo su propia jurisdicción.

11:03

Y con la tecnología de Grok, que gasta

11:05

poca energía y se enfría por aire, les

11:07

cuadra perfecto.

11:08

Pero a ver, planteado así suena impecable, te

11:11

lo compro.

11:12

Ya viene el pero.

11:13

Sí, tengo que hacer de abogado del diablo

11:15

con el tema financiero.

11:17

En las fuentes, Ross dice que quiere acaparar

11:19

el 50% de la inferencia mundial tirando los

11:22

precios casi a cero.

11:24

Actuar como el Costco o el Amazon mayorista

11:26

de los chips.

11:27

Volumen muy alto, margen muy bajo, sí Pero

11:29

frente a los márgenes del 80% que tiene

11:32

Nvidia ¿Cómo convences tú a los inversores de

11:34

Silicon Valley De que ganar menos dinero por

11:37

operación es una victoria?

11:38

Es una pregunta buenísima La clave es entender

11:41

que entrenaría y usaría Son mercados con economías

11:44

opuestas El entrenamiento es pura investigación y desarrollo

11:49

Ahí paras márgenes del 80% Por tener el

11:52

modelo más inteligente del mundo Cueste lo que

11:54

cueste Vale, pero la inferencia es el día

11:56

a día.

11:57

Es cada vez que el usuario usa la

11:59

aplicación en el móvil.

12:00

Y para que ese volumen gigante de operaciones

12:03

sea viable, el coste tiene que tender a

12:06

cero.

12:07

Y aquí viene lo fascinante del argumento de

12:09

Ross.

12:10

Él dice que Grok es, irónicamente, lo mejor

12:13

que les ha pasado a los accionistas de

12:15

Nvidia.

12:16

Eso sí que me parece contraintuitivo total.

12:19

¿Cómo vas a ser aliado si quieres hundir

12:21

los precios?

12:22

Por pura lógica financiera, si Grok absorbe el

12:26

mercado de inferencia barata, Nvidia no tiene que

12:29

meterse en esa guerra de precios.

12:31

Queda protegida.

12:31

Ah, ya lo veo.

12:33

No tienen que devaluar sus productos estrella.

12:36

Pueden seguir vendiendo sus tarjetas al 80% de

12:38

margen destinadas solo a entrenamiento.

12:40

Eso es.

12:41

El mercado se bifurca, uno domina la investigación

12:44

cara y el otro monopoliza la ejecución masiva

12:47

y barata.

12:47

Vale, he entendido el modelo, pero vamos, sobrevivir

12:51

a escalar esto a semejante velocidad pasa factura.

12:55

Sabemos que la plataforma pasó de procesar casi

12:57

nada a servir 20 millones de tokens por

12:59

segundo en apenas 18 meses.

13:02

Y eso casi destruye la empresa.

13:04

Literalmente estuvieron a tres semanas de declarar la

13:07

bancarrota.

13:08

Madre mía, a tres semanas.

13:10

Y aquí es donde la cultura interna demostró

13:12

su valor.

13:13

Porque en tecnología, cuando pasa esto, lo habitual

13:15

es hacer despidos masivos.

13:17

Pero si hacían eso, se quedaban sin los

13:19

ingenieros que necesitaban para solucionar el problema.

13:22

Así que miraron a la historia, mi Litter.

13:24

a los bonos de la Segunda Guerra Mundial

13:26

y crearon los bonos GROC.

13:29

Propusieron a la plantilla recortes de sueldo voluntarios

13:32

a cambio de acciones.

13:33

El 80% de la plantilla aceptó el trato.

13:36

Es brutal.

13:37

Y lo más revelador, la mitad llegó a

13:39

bajarse el sueldo hasta el mínimo legal permitido.

13:42

Eso no se hace solo por dinero, requiere

13:44

una fe ciega en la tecnología.

13:46

Y esa experiencia de supervivencia extrema les generó

13:49

fobia a lo que ellos llaman la diabetes

13:51

financiera.

13:53

La diabetes financiera.

13:54

Qué buen concepto para describir el exceso de

13:56

dinero en Silicon Valley.

13:58

Sí.

13:58

Tener demasiado capital rápido adormece la innovación, porque

14:02

tapas los errores con dinero.

14:04

La escasez les obligó a ser más creativos.

14:07

Por eso también hablan mucho de contratar para

14:10

la suerte.

14:11

Que, ojo, no es magia ni superstición.

14:13

Es construir un equipo que esté predispuesto a

14:15

aprovechar oportunidades que otros ignoran.

14:17

El mejor ejemplo es cuando pivotaron hacia los

14:20

grandes modelos de lenguaje, los LLM.

14:23

Al principio, sus propios ingenieros dudaban de meterse

14:26

ahí.

14:26

Pensarían que no podían competir con los gigantes

14:29

establecidos, lógico.

14:32

Claro, pero Ross insistió.

14:34

Vieron que su hardware secuencial encajaba perfecto con

14:36

cómo los modelos generan texto palabra a palabra.

14:40

Apostaron, se hicieron virales y capitalizaron algo para

14:43

lo que ya estaban preparados.

14:44

Ya, pero liderar a este nivel de caos

14:47

y velocidad no se hace dando micro órdenes

14:49

a los ingenieros.

14:51

Y ahí entra el detalle físico de la

14:53

moneda de desafío que todos llevan en el

14:55

bolsillo.

14:56

Una moneda inspirada en el libro Turn the

14:57

Ship Around sobre un submarino nuclear estadounidense, ¿sí?

15:01

¿Y qué nos dice esa moneda sobre su

15:03

estilo de liderazgo intencional?

15:05

Pues que en vez de dar órdenes microscópicas

15:07

y decirle al equipo cómo hacer su trabajo,

15:10

marcaron un objetivo simple y binario grabado en

15:12

la moneda, alcanzar los 25 millones de tokens

15:15

por segundo.

15:16

Fijas el norte magnético, das el contexto y

15:20

dejas que los expertos empujen el barco.

15:22

Es una lección organizativa brillante, la verdad.

15:26

Y bueno, para cerrar este análisis, me gustaría

15:29

plantear un pensamiento provocador a la audiencia.

15:32

A ver, cuéntanos.

15:33

Hay un dato que me dejó pensando.

15:36

Ross destacó que de los 2 millones de

15:38

desarrolladores que usan su plataforma, 400.000 operan desde

15:41

la India, con una ética de trabajo implacable

15:44

y sin las comodidades de Silicon Valley.

15:46

Es un ejército de talento puro, sí.

15:49

Su pregunta me queda en el aire.

15:51

Si el coste de pensar y razonar, mediante

15:54

IA, tiende a cero gracias a tecnologías como

15:56

las de Grok, ¿Estamos a punto de ver

15:58

cómo las próximas cinco tecnológicas más grandes del

16:02

mundo nacen no en California, sino en regiones

16:05

emergentes que sepan exprimir al máximo esta computación

16:08

democratizada?

16:10

Es para pensarlo, desde luego Antes de despedirnos

16:13

hasta el próximo programa, os informamos de que

16:15

las voces que oyes han sido generadas por

16:17

la IA de Notebook LM y que dirigiendo

16:19

el podcast se encuentra Julio Pablo Vázquez, un

16:22

humano que te envía saludos En caso de

16:24

error, probablemente sean errores humanos.

16:27

¡Nos escuchamos!

16:39

Y hasta aquí el episodio de hoy.

16:41

Muchas gracias por tu atención.

16:53

Esto es BIMPRAXIS Nos escuchamos en el próximo

16:56

episodio

E065_La_apuesta_radical_de_Groq_contra_Nvidia

Episode description

Episodio de BIMPRAXIS: El Futuro de la Inteligencia Artificial

Persons