E065_La_apuesta_radical_de_Groq_contra_Nvidia
Ep. 65

E065_La_apuesta_radical_de_Groq_contra_Nvidia

Episode description

Episodio de BIMPRAXIS: El Futuro de la Inteligencia Artificial

El mundo de los microchips de inteligencia artificial está experimentando un cambio radical gracias a empresas como Grok, que desafían el dominio de NVIDIA. En este episodio, exploramos cómo la estrategia de Grok de priorizar el software sobre el hardware puede revolucionar la industria. Con una aproximación innovadora, Grok ha logrado desarrollar un chip que puede procesar lenguaje de manera más eficiente, cambiando el juego en la inferencia de IA. Además, su enfoque en la memoria interna y la eliminación de la memoria externa ha reducido significativamente el consumo de energía y ha solucionado el problema térmico. Esto no solo tiene implicaciones tecnológicas, sino también geopolíticas, ya que países buscan desarrollar su propia infraestructura de IA para no depender de corporaciones extranjeras. ¿Estamos a punto de ver un cambio en el equilibrio de poder en la industria tecnológica?

Download transcript (.srt)
0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas.

0:38

Bienvenidas, bienvenidos a un nuevo episodio de BIMPRAXIS.

0:42

Hoy os traemos el fascinante mundo de los

0:44

microchips de inteligencia artificial y la estrategia radical

0:47

de Grok para desafiar el dominio absoluto de

0:50

NVIDIA.

0:51

Bueno, y para empezar fuerte, pongámonos en situación.

0:54

Imagínate que tienes 10 millones de dólares sobre

0:57

la mesa, listos para entrar en tu cuenta

1:00

bancaria.

1:01

Y la única condición es no irte de

1:03

tu empresa, quedarte exactamente donde estás y vas

1:07

y dices que no.

1:08

Madre mía, 10 millones.

1:10

O sea, rechazar eso para fundar una startup

1:12

desde cero absoluto.

1:13

A ver, hay que tener una convicción casi

1:15

temeraria para dar un paso así.

1:17

Totalmente.

1:18

Y de esa certeza es de lo que

1:20

venimos a hablar en este análisis a fondo.

1:22

Hemos estado revisando dos entrevistas recientes y larguísimas

1:26

con Jonathan Ross, que es el CEO de

1:27

Grok, para intentar entender todo esto.

1:30

Toda la industria tecnológica parece estar enfocando mal

1:33

uno de los problemas más gordos de nuestra

1:35

era.

1:36

¿Y cómo poner el software primero puede cambiar

1:38

no sólo la economía, sino la geopolítica mundial?

1:41

Sí, sí, pero es que hay que contextualizar

1:43

quién es este hombre.

1:45

No es un ingeniero cualquiera.

1:47

Cuando estaba en Google, fue el creador del

1:49

TPU, la famosa unidad de procesamiento tensorial.

1:52

Claro, el chip de inteligencia artificial de Google.

1:55

Ese mismo.

1:56

Y fíjate que lo hizo dedicando el 20%

1:59

de su tiempo libre en esos proyectos paralelos

2:02

que dejaba hacer la empresa.

2:03

O sea, mientras todo el mundo se pedea

2:05

hoy por las tarjetas gráficas de siempre, las

2:07

GPUs, Grok está jugando a otra cosa.

2:10

A un ajedrez totalmente distinto, sí.

2:13

Y para entender de dónde sale el germen

2:14

de esta idea, hay una anécdota de 2012

2:17

en el comedor de Google que me parece,

2:19

vamos, buenísima.

2:20

Ya sé por dónde vas la historia del

2:21

modelo de voz.

2:22

Esa es.

2:24

Resulta que unos investigadores acaban de conseguir que

2:26

una IA reconozca la voz humana mejor que

2:28

una persona.

2:29

Un hito brutal.

2:31

Pero estaban amargados.

2:32

Claro, porque tenían el modelo entrenado, pero ponerlo

2:35

a funcionar en la vida real para millones

2:36

de usuarios era económicamente imposible.

2:39

Costaba una barbaridad en potencia de cálculo.

2:42

Y ahí entra Ross y crea el TPU

2:43

para solucionar ese cuello de botella.

2:46

Pero lo fuerte es cuando se va de

2:47

Google.

2:47

Porque se da cuenta de que si monta

2:49

una empresa nueva y hace un chip copiando

2:51

el enfoque tradicional, centrándose solo en la fuerza

2:54

bruta del hardware, se la va a pegar.

2:56

Se la pega seguro, por culpa del software.

2:59

O sea, para que te hagas una idea,

3:00

en empresas dominantes como NVIDIA puede haber 10.000

3:04

personas, 10.000, dedicadas solo a escribir kernels.

3:08

Espera, aclaremos esto un segundo.

3:11

Escribir kernels es básicamente programar a un nivel

3:13

bajísimo, ¿no?

3:15

Muy, muy cerca de la máquina física.

3:17

Exacto, código ensamblador puro y duro.

3:20

Es un trabajo hiperartesanal donde ajustas las matemáticas

3:23

a la forma física del silicio.

3:25

Y claro, ninguna startup puede contratar a 10.000

3:28

personas de golpe para igualar eso.

3:31

Ya, es imposible competir así de la noche

3:33

a la mañana.

3:34

Entonces Grok hace lo que la industria consideró

3:36

una herejía.

3:38

Se tiran los primeros seis meses construyendo un

3:40

compilador, o sea, software, antes de diseñar siquiera

3:44

la arquitectura del chip.

3:45

Es que suena a ciencia ficción.

3:48

Hicieron un modelo matemático perfecto de cómo debería

3:50

ser el hardware ideal para la IA, crearon

3:52

el software para ese modelo y luego ya

3:55

fabricaron el chip físico para que encajara como

3:57

un guante.

3:58

O sea, lo diseñaron para ser nativo en

4:00

la nube, en entornos serverless, que básicamente significa

4:03

que el desarrollador manda el código y no

4:06

tiene que pelearse con servidores ni gestionar la

4:08

memoria.

4:09

Funciona solo, sí.

4:10

La plataforma lo ejecuta de forma invisible.

4:13

Pues, a ver, haciendo una analogía.

4:15

Esto es como si te venden un coche

4:17

de Fórmula 1 hiper rápido, pero te dicen,

4:19

oye, construyete tú el circuito y ponle el

4:21

motor de arranque pieza por pieza.

4:23

Y Grok hace lo contrario.

4:25

Construye primero la pista y la telemetría.

4:27

Y luego hace un coche a medida para

4:29

que ruede solo.

4:30

Me encanta el ejemplo.

4:32

Es tal cual.

4:33

Pero esto me genera una duda razonable.

4:35

Si el software es el verdadero dolor de

4:37

cabeza, y hasta gigantes como Meta o Google

4:39

sufren con ello, ¿por qué absolutamente todas las

4:42

startups siguen cometiendo el error de empezar por

4:44

el silicio?

4:45

Por pura inercia cultural, la verdad.

4:47

A los ingenieros de hardware les apasiona el

4:50

hardware, les fascina buscar el nanosegundo de ventaja

4:53

física.

4:54

Pero Ross lo explica muy bien con un

4:56

escenario demoledor en las entrevistas.

4:58

¿Qué escenario plantea?

5:00

Pues imagina que haces el chip del futuro,

5:03

el más rápido de la historia.

5:04

Una maravilla.

5:05

pero si a los clientes les quitas una

5:07

sola función de software que ya usan hoy

5:09

en día, como el Speculative Decode o el

5:12

Prefix Caching, no te lo compra nadie.

5:15

Cero ventas, claro.

5:17

Nadie lo querría en sus centros de datos.

5:19

Oye, desgranemos un poco esos conceptos porque la

5:22

jerga técnica a veces asusta, y esto es

5:24

clave.

5:25

¿Qué es exactamente el Speculative Decode?

5:28

Es pura magia matemática, te lo prometo.

5:30

Básicamente la IA redacta en borrador varias palabras

5:33

futuras, las adivina, mientras todavía está procesando la

5:37

actual.

5:37

Si acierta, aprueba todo el bloca de golpe

5:39

y se ahorra muchísimo tiempo.

5:41

Ostras, qué bueno.

5:42

Es como ir rellenando el texto por adelantado.

5:45

¿Y el prefix caching qué hace?

5:48

Eso es guardar en memoria trozos de conversación

5:50

que se repiten mucho para que el modelo

5:52

no tenga que volver a leer todo el

5:54

historial cada vez que le haces una pregunta

5:55

nueva.

5:57

Son trucos 100% de software.

5:58

Si tu chip nuevo no soporta esto, su

6:00

rendimiento real se hunde.

6:02

Clarísimo.

6:03

O sea, el silicio sin software no es

6:05

nada.

6:06

Y bueno, una vez solucionado este problema inmenso,

6:09

llegamos a la máquina en sí, el chip

6:11

LPU de Grok, la unidad de procesamiento de

6:13

lenguaje.

6:15

Aquí es donde empieza la verdadera guerra técnica

6:17

contra las famosas GPU.

6:19

Contra las tarjetas gráficas, exacto.

6:21

Y la diferencia por la que una arquitectura

6:23

es superior a otra está en las matemáticas

6:25

de la inferencia, que es la fase de

6:27

responder a los usuarios.

6:29

Porque entrenar una IA es un problema distinto,

6:32

¿verdad?

6:32

Es un problema paralelo.

6:34

Eso es.

6:35

Al entrenar, coges trillones de datos y pones

6:37

a miles de chips a devorarlos a la

6:40

vez, cada uno por su lado.

6:42

Para eso, las GPUs, que nacieron para calcular

6:45

millones de píxeles en la pantalla de un

6:47

videojuego al mismo tiempo, son perfectas.

6:50

Pero la inferencia, cuando el modelo genera texto

6:52

palabra por palabra, es secuencial.

6:55

O sea, matemáticamente no puedes adivinar el token

6:58

100 de una frase sin haber calculado primero

7:00

el 99.

7:01

Imposible.

7:02

Tiene que ir en orden.

7:03

Hay un ejemplo en las fuentes que ilustra

7:04

esto a la perfección.

7:06

Imagina que encargas un informe súper importante.

7:08

Si pones a 10 personas a escribirlo a

7:10

la vez en habitaciones separadas y sin comunicarse.

7:13

Sale un Frankenstein, un desastre sin sentido.

7:16

Tal cual.

7:16

Eso representaría intentar usar una GPU para inferencia.

7:20

En cambio, si coges a una sola persona

7:21

brillante y la pones a escribir, revisar y

7:24

reescribir 10 veces en secuencia lógica, te sale

7:27

un informe impecable.

7:28

Y a una velocidad vertiginosa.

7:31

Esa es la esencia del LPU de Grok.

7:34

Y fíjate, para conseguir que el hardware ejecute

7:37

esa secuencia tan rápido, tomaron otra decisión drástica.

7:42

Quitaron por completo la memoria externa.

7:44

Adiós a la memoria externa, la famosa HBM.

7:47

Pero a ver, ¿por qué?

7:49

Si todas las tarjetas gráficas la usan.

7:51

Sí, pero es un problema puramente físico.

7:54

Los cables finísimos que conectan el procesador con

7:57

esa memoria externa funcionan en realidad como pequeños

8:00

condensadores eléctricos.

8:02

Uy, espera, detengámonos en la física de esto.

8:05

¿Qué significa a nivel práctico que actúen como

8:08

condensadores?

8:09

Pues que cada vez que quieres mandar un

8:11

1 o un 0 por ese cable, primero

8:13

tienes que llenarlo de electrones.

8:15

Tienes que cargarlo de electricidad para que la

8:17

señal llegue al otro lado y luego descargarlo.

8:20

Ah, o sea que cuanta más distancia hay

8:22

hasta la memoria externa, más energía desperdicias sólo

8:26

en cargar y descargar cables.

8:27

Exacto.

8:28

Gastas mucho más energía moviendo el dato de

8:31

un lado a otro que haciendo la operación

8:32

matemática en sí.

8:34

Por eso Grohe usa sólo memoria interna, la

8:37

SRAM.

8:38

El dato vive exactamente donde se hace el

8:40

cálculo.

8:41

O sea, viaja milímetros en vez de centímetros.

8:44

Y el impacto de rediseñar esto a gran

8:46

escala es asombroso.

8:49

En los fuentes explican que para correr un

8:50

modelo masivo como llama Maverick, no dividen el

8:53

trabajo a ver qué chip está libre.

8:55

No, no.

8:56

Conectan más de 3.000 microchips directamente entre sí.

9:00

Sin switches de red intermedio, sin nada.

9:02

Es como una línea de montaje en una

9:04

fábrica, ¿no?

9:05

El token viaja por el silicio de los

9:07

3.000 procesadores casi al instante, perfectamente coreografiado.

9:11

Y el efecto dominó que provoca no usar

9:13

memoria externa te cambia todo el sistema.

9:16

Al no desperdiciar electricidad moviendo datos, el consumo

9:20

se desploma.

9:21

Hablamos de gastar una tercera parte de la

9:23

energía por cada palabra.

9:24

Y esto, fíjate, soluciona el que seguramente sea

9:27

el mayor cuello de botilla de la IA

9:29

hoy en día.

9:30

El problema térmico.

9:31

La refrigeración.

9:33

Claro, porque montar un centro de datos basado

9:35

en tarjetas gráficas ahora mismo es una pesadilla,

9:38

que tarda años.

9:39

Necesitas permisos eléctricos bestiales y sistemas de refrigeración

9:44

líquida complejísimos porque los chips son auténticos hornos.

9:47

literalmente hornos industriales.

9:50

Sin embargo, Grok levantó un centro de datos

9:52

operativo en Finlandia en 34 días y otro

9:55

en Arabia Saudí en 51 días.

9:58

Es un ritmo de otro planeta.

10:00

Lo consiguen porque están aprovechando lo que la

10:02

industria desecha.

10:04

Como no necesitan esa refrigeración líquida tan extrema,

10:07

funcionan con aire.

10:09

Así que alquilan los espacios enormes refrigerados por

10:12

aire que los gigantes de la nube están

10:14

abandonando por obsoletos.

10:15

Los enchufan y en semanas están operando.

10:18

¡Qué pasada!

10:19

Y esto nos empuja directamente a un concepto

10:22

geopolítico muy fuerte, la IA soberana.

10:25

Un concepto que está cambiando las políticas de

10:28

Estado.

10:29

Países enteros como Canadá o Arabia Saudí se

10:32

han dado cuenta de que la capacidad de

10:34

computación es ahora mismo como las plantas de

10:37

energía en la revolución industrial.

10:38

Claro.

10:39

Si estás en plena revolución, depender de un

10:42

país vecino para que te dé la electricidad

10:44

que mueve tus fábricas es un suicidio.

10:46

Exactamente.

10:48

Estas naciones ven que la IA va a

10:50

ser el motor económico y se niegan a

10:52

depender de que cuatro corporaciones de Estados Unidos

10:55

decidan cuándo les toca comprar GPUs en una

10:58

lista de espera de años.

10:59

Quieren su infraestructura ya, bajo su propia jurisdicción.

11:03

Y con la tecnología de Grok, que gasta

11:05

poca energía y se enfría por aire, les

11:07

cuadra perfecto.

11:08

Pero a ver, planteado así suena impecable, te

11:11

lo compro.

11:12

Ya viene el pero.

11:13

Sí, tengo que hacer de abogado del diablo

11:15

con el tema financiero.

11:17

En las fuentes, Ross dice que quiere acaparar

11:19

el 50% de la inferencia mundial tirando los

11:22

precios casi a cero.

11:24

Actuar como el Costco o el Amazon mayorista

11:26

de los chips.

11:27

Volumen muy alto, margen muy bajo, sí Pero

11:29

frente a los márgenes del 80% que tiene

11:32

Nvidia ¿Cómo convences tú a los inversores de

11:34

Silicon Valley De que ganar menos dinero por

11:37

operación es una victoria?

11:38

Es una pregunta buenísima La clave es entender

11:41

que entrenaría y usaría Son mercados con economías

11:44

opuestas El entrenamiento es pura investigación y desarrollo

11:49

Ahí paras márgenes del 80% Por tener el

11:52

modelo más inteligente del mundo Cueste lo que

11:54

cueste Vale, pero la inferencia es el día

11:56

a día.

11:57

Es cada vez que el usuario usa la

11:59

aplicación en el móvil.

12:00

Y para que ese volumen gigante de operaciones

12:03

sea viable, el coste tiene que tender a

12:06

cero.

12:07

Y aquí viene lo fascinante del argumento de

12:09

Ross.

12:10

Él dice que Grok es, irónicamente, lo mejor

12:13

que les ha pasado a los accionistas de

12:15

Nvidia.

12:16

Eso sí que me parece contraintuitivo total.

12:19

¿Cómo vas a ser aliado si quieres hundir

12:21

los precios?

12:22

Por pura lógica financiera, si Grok absorbe el

12:26

mercado de inferencia barata, Nvidia no tiene que

12:29

meterse en esa guerra de precios.

12:31

Queda protegida.

12:31

Ah, ya lo veo.

12:33

No tienen que devaluar sus productos estrella.

12:36

Pueden seguir vendiendo sus tarjetas al 80% de

12:38

margen destinadas solo a entrenamiento.

12:40

Eso es.

12:41

El mercado se bifurca, uno domina la investigación

12:44

cara y el otro monopoliza la ejecución masiva

12:47

y barata.

12:47

Vale, he entendido el modelo, pero vamos, sobrevivir

12:51

a escalar esto a semejante velocidad pasa factura.

12:55

Sabemos que la plataforma pasó de procesar casi

12:57

nada a servir 20 millones de tokens por

12:59

segundo en apenas 18 meses.

13:02

Y eso casi destruye la empresa.

13:04

Literalmente estuvieron a tres semanas de declarar la

13:07

bancarrota.

13:08

Madre mía, a tres semanas.

13:10

Y aquí es donde la cultura interna demostró

13:12

su valor.

13:13

Porque en tecnología, cuando pasa esto, lo habitual

13:15

es hacer despidos masivos.

13:17

Pero si hacían eso, se quedaban sin los

13:19

ingenieros que necesitaban para solucionar el problema.

13:22

Así que miraron a la historia, mi Litter.

13:24

a los bonos de la Segunda Guerra Mundial

13:26

y crearon los bonos GROC.

13:29

Propusieron a la plantilla recortes de sueldo voluntarios

13:32

a cambio de acciones.

13:33

El 80% de la plantilla aceptó el trato.

13:36

Es brutal.

13:37

Y lo más revelador, la mitad llegó a

13:39

bajarse el sueldo hasta el mínimo legal permitido.

13:42

Eso no se hace solo por dinero, requiere

13:44

una fe ciega en la tecnología.

13:46

Y esa experiencia de supervivencia extrema les generó

13:49

fobia a lo que ellos llaman la diabetes

13:51

financiera.

13:53

La diabetes financiera.

13:54

Qué buen concepto para describir el exceso de

13:56

dinero en Silicon Valley.

13:58

Sí.

13:58

Tener demasiado capital rápido adormece la innovación, porque

14:02

tapas los errores con dinero.

14:04

La escasez les obligó a ser más creativos.

14:07

Por eso también hablan mucho de contratar para

14:10

la suerte.

14:11

Que, ojo, no es magia ni superstición.

14:13

Es construir un equipo que esté predispuesto a

14:15

aprovechar oportunidades que otros ignoran.

14:17

El mejor ejemplo es cuando pivotaron hacia los

14:20

grandes modelos de lenguaje, los LLM.

14:23

Al principio, sus propios ingenieros dudaban de meterse

14:26

ahí.

14:26

Pensarían que no podían competir con los gigantes

14:29

establecidos, lógico.

14:32

Claro, pero Ross insistió.

14:34

Vieron que su hardware secuencial encajaba perfecto con

14:36

cómo los modelos generan texto palabra a palabra.

14:40

Apostaron, se hicieron virales y capitalizaron algo para

14:43

lo que ya estaban preparados.

14:44

Ya, pero liderar a este nivel de caos

14:47

y velocidad no se hace dando micro órdenes

14:49

a los ingenieros.

14:51

Y ahí entra el detalle físico de la

14:53

moneda de desafío que todos llevan en el

14:55

bolsillo.

14:56

Una moneda inspirada en el libro Turn the

14:57

Ship Around sobre un submarino nuclear estadounidense, ¿sí?

15:01

¿Y qué nos dice esa moneda sobre su

15:03

estilo de liderazgo intencional?

15:05

Pues que en vez de dar órdenes microscópicas

15:07

y decirle al equipo cómo hacer su trabajo,

15:10

marcaron un objetivo simple y binario grabado en

15:12

la moneda, alcanzar los 25 millones de tokens

15:15

por segundo.

15:16

Fijas el norte magnético, das el contexto y

15:20

dejas que los expertos empujen el barco.

15:22

Es una lección organizativa brillante, la verdad.

15:26

Y bueno, para cerrar este análisis, me gustaría

15:29

plantear un pensamiento provocador a la audiencia.

15:32

A ver, cuéntanos.

15:33

Hay un dato que me dejó pensando.

15:36

Ross destacó que de los 2 millones de

15:38

desarrolladores que usan su plataforma, 400.000 operan desde

15:41

la India, con una ética de trabajo implacable

15:44

y sin las comodidades de Silicon Valley.

15:46

Es un ejército de talento puro, sí.

15:49

Su pregunta me queda en el aire.

15:51

Si el coste de pensar y razonar, mediante

15:54

IA, tiende a cero gracias a tecnologías como

15:56

las de Grok, ¿Estamos a punto de ver

15:58

cómo las próximas cinco tecnológicas más grandes del

16:02

mundo nacen no en California, sino en regiones

16:05

emergentes que sepan exprimir al máximo esta computación

16:08

democratizada?

16:10

Es para pensarlo, desde luego Antes de despedirnos

16:13

hasta el próximo programa, os informamos de que

16:15

las voces que oyes han sido generadas por

16:17

la IA de Notebook LM y que dirigiendo

16:19

el podcast se encuentra Julio Pablo Vázquez, un

16:22

humano que te envía saludos En caso de

16:24

error, probablemente sean errores humanos.

16:27

¡Nos escuchamos!

16:39

Y hasta aquí el episodio de hoy.

16:41

Muchas gracias por tu atención.

16:53

Esto es BIMPRAXIS Nos escuchamos en el próximo

16:56

episodio