E081_Minimax-M2.7 vs Claude Opus 4.6

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:39

de BIMPRAXIS.

0:40

Hoy os traemos el modelo de IA que

0:43

se entrena a sí mismo, desmontando el M2

0:45

.7 de Minimax.

0:47

¡Hola a todos!

0:48

Para arrancar, vamos a poner un caso hipotético

0:51

sobre la mesa.

0:52

Si alguien contrata a un equipo de arquitectos

0:54

para construir un rascacielos gigante, pues lo normal

0:57

es que empiecen a poner cimientos o a

0:59

dibujar planos, ¿verdad?

1:00

Claro, es lo lógico.

1:02

Pues en lugar de eso, lo primero que

1:03

hacen estos arquitectos es inventarse un nuevo tipo

1:06

de grúa, y luego diseñan unas hormigoneras más

1:09

eficientes y crean un software de gestión de

1:11

obras desde cero.

1:12

Todo esto solo para poder trabajar más rápido

1:15

después.

1:16

Esa idea es muy importante.

1:17

Esa idea, esa vuelta de tuerca a la

1:19

forma de trabajar, es exactamente lo que subyace

1:22

bajo el capó del sistema que nos ocupa

1:24

hoy, el M2 .7.

1:26

Y fíjate que es un cambio de paradigma

1:28

que merece muchísimo la pena diseccionar.

1:31

Porque el objetivo de nuestra inmersión de hoy

1:34

es rascar muy por debajo de esa capa

1:36

de marketing deslumbrante que, a ver, siempre acompaña

1:40

los lanzamientos de inteligencia artificial.

1:42

Ya, siempre lo pintan todo como una revolución.

1:45

Exacto.

1:45

Queremos entender...

1:47

Queremos entender qué significa, a nivel estrictamente técnico,

1:49

que una IA ayude a construirse a sí

1:52

misma.

1:53

Y además, hay que poner a prueba su

1:55

rendimiento real frente a los competidores más asentados.

1:58

Porque los números prometen mucho.

2:00

Prometen una barbaridad.

2:01

Pero sobre todo, hay que evaluar si las

2:04

limitaciones operativas, esa letra pequeña que siempre esconde

2:07

problemas, justifican un coste de uso que, sorprendentemente,

2:11

resulta ser muy, muy bajo.

2:13

O sea, hay que separar la promesa comercial...

2:17

...de lo que realmente se encuentra un ingeniero

2:18

cuando conecta esto a su servidor.

2:20

Pues vamos a entrar directos a esa afirmación

2:22

principal que resulta tan rompedora.

2:25

Porque el análisis exhaustivo en el que nos

2:27

basamos hoy deja clarísimo que este modelo de

2:29

Minimax no es simplemente uno más que resulta

2:32

ser un poco más rápido generando texto.

2:34

No, ni mucho menos.

2:35

O que araña un par de puntos extra

2:37

en un examen estandarizado.

2:39

La gran baza aquí es que ha tenido

2:40

un papel activo en su propio proceso de

2:42

entrenamiento.

2:43

Ha construido y refinado su propia infraestructura.

2:46

O sea, es lo que en el análisis

2:47

denominan un Research Agent Harness, un arnés de

2:51

agente de investigación.

2:53

Eso es.

2:54

Y el término arnés, el harness, es fundamental

2:57

para entender el salto técnico.

3:00

Tradicionalmente, pues vemos modelos que generan datos sintéticos

3:03

para entrenar a versiones futuras de sí mismos,

3:06

¿vale?

3:06

Eso ya es bastante común.

3:08

Sí, eso lo tenemos más visto.

3:10

¿Qué infraestructura técnica necesaria para ejecutar los experimentos

3:14

de aprendizaje por refuerzo?

3:16

O sea, la base del entrenamiento.

3:18

Totalmente.

3:19

Ha estado monitorizando las tuberías de datos, detectando

3:23

y depurando errores en el código de entrenamiento

3:25

y evaluando si los resultados de cada experimento

3:29

eran útiles o no.

3:30

Llevándolo a un terreno más cotidiano, es como

3:32

un programador que entra a trabajar a una

3:34

empresa y al ver que su entorno de

3:36

desarrollo le resulta lento o ineficiente, se pone

3:40

a reprogramar el propio editor sobre la marcha

3:42

mientras sigue escribiendo la aplicación principal.

3:44

¿Una analogía?

3:46

Perfecta.

3:46

Y el análisis técnico describe esto como un

3:49

bucle completamente autónomo.

3:50

O sea, la IA detecta un fallo, propone

3:53

un cambio en su propio andamiaje de pruebas,

3:56

ejecuta las evaluaciones pertinentes y, ojo, decide por

3:59

su cuenta si mantiene esa modificación o se

4:02

vuelve a la versión anterior.

4:03

Y este ciclo ha estado corriendo durante más

4:06

de 100 rondas.

4:07

Más de 100.

4:09

Sí, sí, 100 rondas sin que ningún humano

4:11

interviniera.

4:11

Es que suena a ciencia ficción.

4:13

A ver, genera un escepticismo enorme.

4:16

Cuesta creer que esto sea un salto técnico

4:18

real y no, bueno, pues una narrativa muy

4:21

bien empaquetada para vender titulares sobre IA general.

4:24

A ver, esa reserva mental está más que

4:26

justificada, sobre todo viendo la tendencia que tiene

4:29

esta industria a exagerar cualquier automatización, en plan,

4:32

ya tenemos inteligencia general.

4:34

Ya te digo.

4:35

Sin embargo, el valor técnico real de este

4:37

hito no reside en que la máquina haya

4:40

cobrado conciencia o ni nada parecido.

4:43

Reside en la dirección que marca.

4:46

Hasta ahora, el cuello de botella en la

4:48

evolución de estos modelos ha sido puramente humano.

4:51

Claro, el tiempo que tarda la gente.

4:53

Exacto.

4:53

Se necesitan ejércitos enteros de ingenieros ajustando hiperparámetros,

4:58

revisando por qué Naricio es una métrica ha

5:00

bajado, corrigiendo el rumbo manualmente.

5:03

Al conseguir que un modelo asuma esa carga

5:05

de crear y mantener su propia infraestructura de

5:08

evaluación, pues se inicia una transición clarísima.

5:11

La IA pasa de ser solo el producto

5:13

final a ser también la herramienta de desarrollo.

5:15

Exacto.

5:16

Eso es.

5:16

Y validar ese ciclo continuo de más de

5:19

100 rondas demuestra que este concepto de autoevolución

5:22

ya no es pura teoría en una pizarra.

5:25

Es una base operativa o funcional que reduce

5:27

drásticamente la fricción humana.

5:29

Vale, pero si aceptamos que este modelo es

5:31

capaz de montarse su propio taller de trabajo

5:33

y optimizar sus herramientas, la duda ofende.

5:36

¿Cómo de bueno es el producto final cuando

5:39

lo sacas de ese taller y lo pones

5:40

a programar de verdad?

5:42

Ahí es donde entramos en terreno pantanoso.

5:45

Totalmente.

5:46

Hay que entrar en la arquitectura técnica y

5:48

en esa especie de garra fría de las

5:49

pruebas de rendimiento, los famosos benchmarks.

5:52

El análisis subraya que el M2 .7 está

5:55

diseñado con una obsesión clarísima por los flojos

5:57

agénticos.

5:58

Que no es lo mismo que un chatbot

6:00

normal, claro.

6:01

Exacto.

6:01

No estamos hablando de un asistente al que

6:03

le haces un par de preguntas rápidas, sino

6:05

de tareas largas, donde un agente tiene que

6:07

planificar una estrategia, utilizar diversas herramientas externas y,

6:11

lo más importante, mantener un contexto coherente durante

6:14

mucho tiempo.

6:14

Y para sostener eso hace falta mucha memoria

6:18

a corto plazo, digamos.

6:19

Eso es.

6:20

Le han dotado de una ventana de contexto

6:22

enorme de 243 .800 tokens.

6:25

Y en velocidad, la versión estándar escupe 60

6:28

tokens por segundo, mientras que la versión high

6:31

speed llega a los 100 tokens por segundo.

6:33

Bueno, a ver, esas cifras de velocidad y

6:36

capacidad de retención, hoy en día son los

6:39

cimientos mínimos necesarios para que un flujo agéntico

6:42

largo no colapse por pura lentitud.

6:44

Ya, es el desde.

6:46

Exacto, es lo mínimo que se despacha.

6:48

Pero la verdadera prueba de fuego está en

6:50

las métricas de programación pura y dura.

6:53

Los datos del análisis arrojan un 56 ,2

6:56

% de éxito en CWP Bench Pro, un

6:59

55 ,6 % en Byte Pro y un

7:02

52 ,7 % en MultiCW Bench.

7:05

Y aquí es importantísimo hacer una pausa, creo

7:07

yo, porque para alguien que esté fuera del

7:09

día a día del desarrollo de software, un

7:12

56 % de éxito en un test.

7:14

Parece un suspenso catastrófico.

7:17

Cualquiera pensaría que el modelo es inútil porque

7:19

falla casi la mitad de las veces.

7:21

Es un matiz crucial, me alegra que lo

7:23

saques.

7:24

Porque pruebas como SWI Bench Pro no son

7:27

exámenes tipo test de universidad.

7:30

No es marcar la casilla correcta.

7:31

Qué va, qué va.

7:33

Consisten en volcar problemas reales, issues sacados directamente

7:36

de repositorios de código abierto de GitHub, que

7:39

son inmensos y súper complejos.

7:42

Un cristo de código, vamos.

7:43

Literalmente.

7:44

El modelo tiene que navegar por miles de

7:47

archivos, entender dónde narices está el problema, proponer

7:51

la solución, escribir el código modificado y encima

7:54

asegurar que nada más se rompa al hacerlo.

7:57

Que una máquina logre resolver el 56 con

8:00

2 % de esos problemas de forma totalmente

8:02

autónoma es un porcentaje altísimo.

8:05

¿Rivaliza con el esfuerzo de un humano?

8:07

Rivaliza con el tiempo y esfuerzo que le

8:10

tomaría un ingeniero humano señor tirarse días mirando

8:13

el código.

8:14

Lo cual lo pone cara a cara con

8:16

la artillería pesada del mercado.

8:18

Igualando o incluso superando en ciertas áreas a

8:20

pesos pesados como Cloud 4 .6 Opus, a

8:23

Gemini 3 .1 Pro y a los equivalentes

8:26

a GPT 5 .4.

8:27

Son palabras mayores, sí.

8:30

Pero hay otra métrica en el análisis que

8:32

resulta fascinante por cómo funciona.

8:34

Se trata de ML Benchlight, que es una

8:37

evaluación creada por OpenAI.

8:39

Compila 22 tareas de Machine Learning inspiradas en

8:41

Kaggle.

8:42

Y Kaggle no es ninguna broma.

8:44

Para nada.

8:44

Para dar un poco de perspectiva, Kaggle es

8:47

una plataforma donde científicos de natos de todo

8:50

el mundo compiten, compiten durante semanas, para crear

8:54

modelos predictivos súper complejos.

8:56

Pues el M2 .7 no sólo aprueba, sino

8:59

que logra un promedio de medallas del 66

9:01

con 6 % en estas competiciones.

9:04

Que es una barbaridad.

9:05

Es una barbaridad, pero lo impactante es cómo

9:08

llega a ese número.

9:10

Resulta que escala en función del tiempo de

9:12

cómputo.

9:12

A las 5 horas de procesamiento.

9:14

El modelo ronda un 57 % de éxito.

9:17

Y si se le deja seguir pensando, esa

9:20

cifra continúa subiendo escalonadamente hasta llegar a las

9:23

25 horas.

9:24

Esto que comentas ilustra un cambio de paradigma

9:27

potentísimo en el sector.

9:29

Hemos pasado de valorar a los modelos por

9:31

su inmediatez, es decir, quién te responde más

9:33

rápido en una ventanita de chat, a valorar

9:36

el cómputo en tiempo de inferencia.

9:38

Permitir que la máquina piense.

9:40

Exacto.

9:41

Permitir que la máquina piense durante un día

9:43

entero si hace falta.

9:44

En problemas de ciencia de datos complejos, la

9:47

primera respuesta rara vez es la óptima.

9:49

El hecho de que el rendimiento del modelo

9:51

siga escalando tras 25 horas demuestra una capacidad

9:54

de iteración brutal.

9:56

Prueba una hipótesis matemática, ve que el modelo

9:59

predictivo no alcanza la precisión deseada, ajusta los

10:02

pesos de las variables y vuelta a empezar.

10:04

Todo esto suena espectacular, verdaderamente.

10:08

Pero hay un detalle en las especificaciones del

10:11

análisis.

10:11

Una especie de letra pequeña que cambia completamente.

10:14

La letra pequeña, sí.

10:18

Esos 204 .800 tokens de la ventana de

10:21

contexto tienen trampa.

10:24

Resulta que la fuente subraya que no representan

10:26

sólo la cantidad de información que se le

10:28

puede dar al modelo como instrucción de entrada,

10:30

sino que es un límite combinado.

10:33

Suma la entrada más la salida.

10:35

¿No significa esto que puede quedarse a medias

10:37

y cortar tareas largas?

10:39

Ese es el gran cuello de botella estructural,

10:41

sin duda.

10:42

Es un riesgo altísimo.

10:43

Para visualizar el problema, es como si a

10:46

un trabajador le dieras un presupuesto estricto de

10:48

200 .000 caracteres para usar en una libreta

10:51

compartida para todo el proyecto.

10:53

Vale.

10:53

Si la tarea exige leer un manual técnico

10:56

larguísimo que consume, pongamos, 150 .000 caracteres, a

11:00

ese trabajador sólo le quedan 50 .000 para

11:02

redactar su informe, razonar sus pasos en la

11:05

libreta y usar herramientas.

11:07

Y 50 .000 tokens vuelan.

11:09

Vuelan.

11:09

Si el modelo supera ese límite combinado en

11:13

medio de un flujo, en medio de un

11:13

flujo agéntico largo, sencillamente colapsa.

11:16

La tarea se corta de forma totalmente abrupta.

11:19

Y claro, esto obliga a los desarrolladores a

11:22

llevar una contabilidad de tokens casi milimétrica, lo

11:25

cual añade una fricción enorme a la hora

11:27

de programar.

11:28

Y a esto hay que sumarle una capa

11:30

de precaución adicional.

11:31

El análisis destaca que las métricas de Minimax,

11:34

aunque son impresionantes, se basan en protocolos de

11:37

evaluación internos.

11:38

Ellos mismos han configurado el entorno de pruebas

11:41

y las herramientas que estaban habilitadas para que

11:43

el modelo se examine.

11:44

A ver, cuando el arquitecto que diseña el

11:46

examen y el alumno que lo hace son

11:48

el mismo, siempre existe un riesgo inelente de

11:51

sobreoptimización.

11:52

Que se saben las respuestas, vamos.

11:53

No implica necesariamente que los datos sean falsos,

11:57

no.

11:57

Pero en la industria del machine learning, un

12:00

protocolo interno rara vez es 100 % reproducible

12:03

por agentes externos, sin que haya variaciones en

12:06

los resultados.

12:07

Por eso, explican que estos porcentajes estratosféricos deben

12:11

tomarse como indicadores orientativos.

12:13

¿Orientativos?

12:14

Claro.

12:14

Sí.

12:15

Te indican una capacidad indudable, pero no como

12:17

verdades absolutas o una tabla de clasificación inamovible.

12:21

Dejando a un lado el entorno supercontrolado del

12:24

laboratorio y de los test, la verdadera pregunta

12:27

es ¿qué pasa cuando pones esta maquinaria a

12:29

funcionar en un entorno real?

12:31

El análisis detalla que en ingeniería de software,

12:34

el M2 .7 va muchísimo más allá de

12:37

un simple autocompletado de código.

12:39

Ya no sólo que te termine la frase

12:40

de programación.

12:42

¿Qué va?

12:43

Brilla en diagnósticos de producción, es capaz de

12:46

correlacionar múltiples métricas de rendimiento, analizar cronologías de

12:50

despliegue, timelines completos y buscar el origen exacto

12:54

de una regresión en el código.

12:55

Que eso es dificilísimo.

12:57

Tela.

12:57

Y también destaca en tareas de productividad de

13:00

oficina avanzada, lo que el análisis llama GDPAA.

13:04

Logra editar documentos de Word, hojas de Excel

13:07

y presentaciones de PowerPoint en múltiples rondas de

13:09

trabajo.

13:10

Sí.

13:10

Efectivamente, el tema ofimático lo maneja de maravilla.

13:12

Totalmente.

13:13

Maneja más de 40 habilidades complejas con un

13:16

97 % de adherencia a las instrucciones, obteniendo

13:19

una puntuación de 46 ,3 en la métrica

13:22

TULSLON.

13:23

La versatilidad entre lo que es el código

13:25

puro y duro en la ofimática es muy

13:27

destacable.

13:28

Pero el núcleo de este éxito práctico, el

13:31

secreto, reside en una técnica concreta, el tool

13:35

use con pensamiento intercalado, el tool use with

13:38

interleaved thinking.

13:40

Pensamiento intercalado.

13:41

Exacto.

13:42

Los modelos clásicos tienden a ser monolíticos, es

13:45

decir, reciben un prompt inicial y te escupen

13:48

una parrafada enorme de una sola vez.

13:51

Si se equivocan en el primer paso de

13:53

esa parrafada, todo el resto de la respuesta

13:55

es basura, es inútil.

13:57

El M2 .7, en cambio, rompe ese proceso.

14:00

Y ese concepto de pensamiento intercalado cobra todo

14:03

el sentido cuando se analiza el escenario estrella

14:05

que plantea la fuente de hoy, los agent

14:08

teams, los equipos de colaboración multiagente.

14:11

El caso de uso que describen, sinceramente, es

14:13

para quedarse con la boca abierta.

14:15

El del servidor, ¿verdad?

14:16

Ese.

14:17

Pongamos que hay un incidente crítico en producción

14:19

en una empresa tecnológica, una caída de servidores

14:23

a las 3 de la madrugada.

14:25

Según el análisis, un agente autónomo detecta el

14:28

fallo y empieza a correlacionar las métricas de

14:30

rendimiento con la cronología reciente de cambios.

14:33

Identifica el bloque de código problemático mediante análisis

14:36

estadístico.

14:37

Y luego, sin consultar al ADIA, accede a

14:40

la aplicación.

14:40

Encontra la base de datos para verificar su

14:41

hipótesis y, finalmente, propone una mitigación directa del

14:44

error.

14:45

Todo este proceso sin despertar a un solo

14:47

humano.

14:47

A ver, la idea de que un equipo

14:49

de agentes detecte una caída a las 3

14:51

de la mañana, busque el error en el

14:53

código y lo arregle solo es fascinante, pero

14:56

requiere un nivel de confianza ciego en la

14:57

máquina que, sinceramente, da terror.

14:59

Sí, sí.

15:00

Entregar ese nivel de control en producción a

15:03

un modelo produce vértigo.

15:05

Pero ahí es justo donde el pensamiento intercalado

15:08

actúa como… digamos, una red de seguridad técnica.

15:12

¿Cómo funciona esa red de seguridad?

15:14

Pues, en ese escenario del servidor caído a

15:17

las 3 de la mañana, el agente no

15:19

intenta adivinar el fallo desde el minuto 1

15:22

y cambiarlo todo.

15:23

Funciona más como un detective frente a una

15:25

pizarra.

15:26

Lee la alerta.

15:27

Hace una pausa para pensar internamente su próximo

15:30

paso.

15:31

Vale.

15:31

Decide invocar una herramienta externa, como ejecutar una

15:35

consulta en el registro de errores.

15:36

Lee los resultados de esa consulta.

15:39

Y, ojo.

15:40

Hace otra pausa para evaluar.

15:41

¿Esto confirma mi teoría inicial?

15:43

Si la respuesta es no, descarta la idea,

15:46

fórmula una hipótesis nueva y busca en otra

15:48

tabla de la base de datos.

15:50

Va paso a paso.

15:50

No se tira a la piscina.

15:52

Exacto.

15:53

Esta iteración constante, este ciclo de observar, razonar

15:58

y actuar paso a paso, es lo que

16:00

permite que el modelo navegue por el caos

16:02

de un entorno de producción real sin volverse

16:05

loco y romper más cosas.

16:06

Bueno.

16:07

Una vez entendido este enorme potencial.

16:08

Y cómo gestiona los flujos agénticos, toca hablar

16:12

de la implementación práctica.

16:13

Porque promete ser la salvación de la oficina

16:15

y el guardián de los servidores de madrugada.

16:18

Y, además, promete hacerlo a precio de saldo.

16:20

Sí.

16:20

La factura es un tema clave aquí.

16:23

Analicemos la integración, los precios y, casi lo

16:26

más interesante, sus tropiezos más básicos.

16:29

A nivel de integración, parece bastante fluido.

16:32

Se puede conectar como un proveedor personalizado con

16:34

una simple clave de API, una API key.

16:36

En editores de código como Cursor .com.

16:38

Y también funciona con herramientas de terminal como

16:43

Cloud Code.

16:43

Todo esto disponible vía Minimax o a través

16:46

de Open Router.

16:47

La facilidad de conexión es un gancho comercial

16:50

fuertísimo.

16:51

Obvio.

16:52

Pero el verdadero golpe en la mesa, como

16:54

decías, es su estructura de costes.

16:56

Es agresivísima.

16:58

Muy, muy agresiva.

16:59

Su modalidad de pago por uso está fijada

17:02

en 0 ,30 dólares por cada millón de

17:04

tokens de entrada.

17:05

Y apenas 0 ,20 dólares por el millón

17:08

de servidores.

17:08

Si comparamos esto con las tarifas habituales de

17:11

los modelos de frontera actuales, es que es

17:14

una fracción minúscula del coste operativo.

17:17

Es bajísimo.

17:18

Es que te sale casi gratis, vaya.

17:20

Ya te digo.

17:21

Además, plantean suscripciones súper accesibles, que empiezan en

17:24

los 10 dólares mensuales para la versión Starter

17:27

y suben hasta los 50 dólares en el

17:29

plan Max.

17:30

La versión High Speed está desde 40 dólares

17:33

al mes.

17:34

Todo esto democratiza muchísimo el acceso a arquitecturas

17:37

agénticas súper complejas.

17:38

Y justo cuando parece que estamos ante la

17:41

máquina perfecta e imbatible, capaz de arreglar una

17:44

infraestructura de red súper compleja, mientras cuesta lo

17:47

mismo que tomarse un café, llega el baño

17:50

de realidad, el tropiezo del que habla la

17:52

fuente.

17:53

¡Ay!

17:54

¡El tropiezo!

17:55

Es buenísimo.

17:57

Es que, a ver si lo entiendo, tenemos

17:59

un modelo capaz de arreglar una caída de

18:01

servidores coordinando un equipo de IAs autónomas, pero

18:04

tropieza estrepitosamente al intentar resolver un cifrado César.

18:27

Pues mira, este fallo tan absurdo con el

18:32

cifrado César es la radiografía perfecta de la

18:36

naturaleza de la inteligencia artificial hoy en día.

18:38

¿Por qué lo dices?

18:39

Porque tendemos a antropomorfizar estas herramientas.

18:43

Asumimos instintivamente que si un modelo es un

18:46

genio brillante en flujos de trabajo complejos de

18:49

programación, pues automáticamente debe ser un genio en

18:52

lógica básica o en puzles sencillos, porque así

18:55

funciona el intelecto humano.

18:57

Si sabes hacer una integral, sabes sumar.

19:00

Claro, esa es la lógica que aplicamos.

19:02

Pero en las redes neuronales hay una simetría

19:05

muy profunda.

19:05

Estos sistemas son, al final del día, devoradores

19:09

de patrones estadísticos.

19:11

El modelo domina los lenguajes de programación porque

19:14

ha ingerido millones y millones de repositorios y

19:17

entiende perfectamente la estructura estadística de las llamadas

19:21

a una API.

19:22

Vale, tiene el patrón memorizado.

19:23

Las algorítmicas secuenciales, como ir desplazando caracteres uno

19:27

a uno, sufren muchísimo porque lo sacas totalmente

19:31

de su zona de confort predictiva.

19:33

No es estadística.

19:34

Es lógica.

19:35

¿Por qué?

19:35

Es pura.

19:36

Es un golpe de realidad muy necesario, desde

19:39

luego.

19:39

No estamos ante una inteligencia general uniforme que

19:42

sirva para todo.

19:43

Y creo que este tropiezo encadena perfectamente con

19:46

las cuatro limitaciones técnicas clave que detalla el

19:49

informe.

19:50

Letra pequeña, que todo el mundo debería conocer

19:52

antes de lanzar campanas al vuelo.

19:55

Fundamental conocerlas, sí.

19:56

La primera es un bloqueador directo para muchísimas

19:59

corporaciones.

19:59

Es un modelo propietario.

20:01

No ofrece los pesos abiertos.

20:03

Y esto para la privacidad.

20:05

La segunda limitación es un bloqueador directo para

20:06

las autoridades y las auditorías.

20:07

Es letal.

20:08

Si una empresa maneja datos médicos o información

20:11

financiera confidencial, o necesita someter sus sistemas a

20:15

auditorías de seguridad súper estrictas, enviar información sensible

20:19

a una API cerrada sencillamente no es una

20:22

opción viable.

20:22

El cumplimiento normativo no te lo permite.

20:24

La segunda limitación ya la hemos diseccionado un

20:27

poco.

20:28

Ese peligroso límite de tokens combinado de entrada

20:30

y salida, que te funciona como una guillotina

20:33

silenciosa.

20:33

Y te corta el proceso a la mitad

20:35

si no tienes cuidado.

20:36

Sí.

20:37

Te exige estar con la calculadora de tokens

20:39

en la mano.

20:40

Pero la tercera limitación es, probablemente, la que

20:43

más dolores de cabeza genera a los ingenieros

20:46

de software a nivel práctico.

20:47

La extrema complejidad operativa.

20:50

Resulta que, para que el modelo mantenga ese

20:52

nivel de brillantez usando el pensamiento intercalado, requiere

20:56

que el sistema que lo aloja preserve los

20:58

campos de razonamiento de manera impecable.

21:00

Las reflexiones internas y las llamadas a herramientas

21:03

son muy importantes.

21:03

Exacto.

21:05

Tienen que preservarse con una fidelidad absoluta en

21:08

el código.

21:09

O sea, si durante un proceso largo de

21:11

varios pasos, el código del desarrollador recorta o

21:14

formatea mal accidentalmente una de esas reflexiones internas

21:18

que hizo el modelo hace cinco minutos, todo

21:21

se desmorona.

21:22

Literalmente.

21:23

El modelo sufre una especie de amnesia instantánea.

21:26

Al perder el hilo conductor exacto de por

21:29

qué tomó una rescisión específica tres pasos atrás,

21:32

la degradación de su rendimiento se desmorona.

21:33

El rendimiento es brutal.

21:34

Empieza a alucinar, o a inventarse cosas, o

21:37

directamente a repetir acciones en bucle porque no

21:39

sabe por qué está ahí.

21:41

Y esto exige que la arquitectura de software

21:43

de la empresa sea absolutamente impecable.

21:46

Y eso es difícil.

21:47

Y la cuarta limitación termina de apretar las

21:50

tuercas técnicas.

21:51

Porque hablamos de topes estrictos impuestos por la

21:54

propia plataforma.

21:55

Tienen un límite de 500 peticiones por minuto

21:58

y un máximo de 20 millones de tokens

22:00

por minuto.

22:02

Pero el dato que me parece verdadero a

22:03

mí es que, en el caso de las

22:03

empresas, el más crítico es el comportamiento del

22:05

prompt catching.

22:06

Uff, ese dato es demoledor.

22:08

Ese sistema de memoria a corto plazo, que

22:11

guarda las instrucciones iniciales para ahorrar tiempo y

22:13

dinero en tareas largas, resulta que caduca en

22:16

tan sólo cinco minutos.

22:17

¿Cinco minutos?

22:18

Exige una disciplina de implementación brutal.

22:21

Es que las implicaciones operativas de esa caducidad

22:23

tan agresiva son enormes para un flujo agéntico.

22:27

El prompt catching es como un camarero que

22:29

recuerda el larguísimo pedido de una mesa sin

22:32

tener que volver a anotarlo entero.

22:33

Buena analogía.

22:34

Pues imagínate que el agente autónomo decide consultar

22:38

una base de datos externa muy pesada.

22:40

Y esa consulta tarda seis minutos en devolver

22:44

los resultados.

22:44

Pues en ese tiempo, la memoria caché de

22:47

Minimax ya se ha borrado por completo.

22:49

Madre mía.

22:50

O sea, el modelo olvida instantáneamente todo.

22:52

Todo el documento técnico de 200 .000 tokens

22:55

que le habías proporcionado al principio se esfuma.

22:59

Para continuar trabajando, el usuario tiene que volver

23:02

a enviar y procesarlo.

23:03

El usuario tiene que pasar toda esa cantidad

23:05

de información desde cero.

23:06

Y esto multiplica el coste económico y destroza

23:09

el tiempo de latencia.

23:10

En tareas asíncronas complejas, cinco minutos es un

23:14

margen de maniobra inasumiblemente corto.

23:16

Resumiendo un poco todas estas piezas de la

23:19

inmersión de hoy, el panorama que nos pinta

23:22

el análisis es un contraste constante entre innovación

23:25

deslumbrante y fricción técnica.

23:27

Promete una reducción drástica en la intervención humana

23:30

y además presenta unos precios súper disruptivos.

23:33

Pero, a cambio, exige lidiar con límites de

23:36

memoria estrictos, caídas de rendimiento por un mal

23:39

formato y un ecosistema totalmente propietario.

23:42

La conclusión más sólida a la que se

23:45

puede llegar, tal y como dice la fuente,

23:47

es que el M2 .7 representa una apuesta

23:50

económicamente demoledora por asentar este paradigma de los

23:53

flujos agénticos.

23:54

Es barato y muy capaz.

23:57

Sí, los números están ahí.

23:58

Sin embargo, su éxito y consolidación final en

24:01

el mercado no es un problema.

24:02

No van a depender de que consiga un

24:04

puntito porcentual más en un benchmark de programación.

24:08

Dependerá enteramente de si los desarrolladores están dispuestos

24:12

a rediseñar sus propias infraestructuras para acomodar esta

24:15

estricta complejidad operativa y la fragilidad del modelo.

24:19

Al final, las tablas de clasificación sirven para

24:22

acaparar titulares, pero el mejor benchmark siempre es

24:25

el caso de uso real de cada uno

24:27

en el barro del día a día.

24:28

Totalmente de acuerdo.

24:29

Y para cerrar esta inmersión.

24:32

Hay una idea latente en todo este análisis

24:34

que creo que merece una reflexión profunda.

24:37

Si asumimos como cierto que la próxima generación

24:40

de inteligencias artificiales ya está invirtiendo su inmenso

24:43

tiempo de cómputo en crear, refinar y automatizar

24:46

sus propios entornos de entrenamiento para la siguiente

24:49

generación, el escenario futuro cambia drásticamente.

24:53

Ya lo creo que cambia.

24:54

Cabe preguntarse si llegará un punto, a no

24:57

muy largo plazo, en el que el verdadero

24:59

cuello de botella para el avance tecnológico no

25:01

sea la falta de microprocesadores o la capacidad

25:03

matemática de la máquina, sino la pura velocidad

25:06

a la que los cerebros humanos podamos procesar,

25:08

comprender y auditar lo que estas infraestructuras están

25:12

construyendo a puerta cerrada.

25:14

Antes de despedirnos hasta el próximo programa, os

25:17

informamos de que las voces que oyes han

25:19

sido generadas por la IA de Notebook LM

25:21

y que dirigiendo el podcast se encuentra Julio

25:24

Pablo Vázquez, un humano que te envía saludos.

25:27

En caso de error, probablemente sean errores humanos.

25:30

Nos escuchamos.

25:43

Y hasta aquí el episodio de hoy.

25:45

Muchas gracias por tu atención.

25:56

Esto es BIM Praxis.

25:58

Nos escuchamos en el próximo episodio.

E081_Minimax-M2.7 vs Claude Opus 4.6

Episode description

Episodio de BIMPRAXIS: El Modelo de IA que se Entrena a Sí Mismo

Persons