E088_Cómo dominar Hermes Agent
Ep. 88

E088_Cómo dominar Hermes Agent

Episode description

Episodio de BIMPRAXIS: La Guía Definitiva para Transformar la Inteligencia Artificial en un Sistema Autónomo y Personalizado

En este episodio de BIMPRAXIS, exploramos la creación de un sistema autónomo y personalizado que gestiona tu vida entera, desde la gestión de tu calendario hasta el análisis de tus datos biométricos. Se presenta Hermes, un sistema que utiliza la arquitectura de memoria a largo plazo para actuar como tu propio archivista, permitiéndote interactuar con él de manera personalizada a través de Telegram. También se discute la importancia de elegir el proveedor adecuado y la utilización de plataformas de enrutamiento dinámico para optimizar costes. Además, se aborda la cuestión de la privacidad existencial y los límites psicológicos de ceder la auditoría de nuestra vida a las matemáticas de un algoritmo.

Download transcript (.srt)
0:10

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Muy buenas.

0:38

Bienvenidas, bienvenidos a un nuevo episodio de BIMPRAXIS.

0:41

Hoy os traemos la guía definitiva para transformar

0:45

una inteligencia artificial en un sistema autónomo y

0:48

personalizado que gestiona tu vida entera.

0:50

Y de verdad que no exageramos con lo

0:52

de la vida entera.

0:54

O sea, es un cambio de paradigma brutal.

0:56

Totalmente.

0:57

A ver, para ponernos en situación, imaginemos esto.

1:00

Horas antes de que suene el despertador por

1:02

la mañana, hay un sistema digital en un

1:04

servidor que ya se ha tragado todos tus

1:06

datos biométricos de la noche.

1:08

¿Ah, sí?

1:08

¿De fondo, sin hacer ruido?

1:10

Exacto.

1:10

Y de forma totalmente autónoma, ha evaluado también

1:14

cómo funcionaron unas publicaciones en redes sociales del

1:16

día anterior.

1:17

Ha visto que hay poco compromiso o engagement.

1:20

Y te ha reestructurado el calendario diario entero.

1:24

O sea, te ha movido a las tareas

1:25

pesadas a las horas donde predice que vas

1:28

a tener mejor rendimiento físico.

1:29

Eso es.

1:30

Y todo esto ocurre en silencio, sin que

1:32

toques un solo botón.

1:34

Todo documentado en archivos de texto.

1:37

Hoy, en nuestro análisis a fondo, vamos a

1:39

desglosar exactamente cómo se construye esta arquitectura.

1:42

Un ecosistema que no es solo un asistente,

1:44

es un gestor de información personal.

1:48

Es que para entender la magnitud de esto

1:50

tenemos que cambiar el chip.

1:52

Olvidarnos de cómo usamos la IA ahora mismo.

1:55

La mayoría de la gente tiene un enfoque

1:57

súper transaccional.

1:58

Claro, abres el chat, preguntas y cierras.

2:01

Eso es.

2:01

Entras en Open Cloud o la que sea,

2:03

metes un prompt, sacas el texto y adiós.

2:06

Cuando cierras la pestaña, el sistema se reinicia.

2:08

Cero memoria.

2:10

Es, por diseño, un entorno sin estado.

2:12

Y a nivel operativo eso es un cuello

2:14

de botella tremendo.

2:14

Yo siempre lo comparo con tener a un

2:17

colega trabajando contigo que es brillante, el mejor

2:20

de su sector, pero que tiene una amnesia

2:21

severa.

2:22

Sí, sí, sí, como en la película Memento.

2:24

Literal.

2:25

Cada mañana tienes que sentarle y decirle cuáles

2:28

son las reglas, qué lenguaje de programación usamos,

2:31

el tono de los correos.

2:32

Es agotador.

2:34

Y aquí es donde las fuentes de hoy

2:36

nos presentan a Hermes.

2:38

Hermes, exacto.

2:39

Que se basa en un concepto que Andréi

2:41

Carpaty bautizó como el WikiLLM.

2:44

El WikiLLM.

2:46

Me encanta el nombre.

2:47

A ver, es que Carpatide en el clavo.

2:50

Dice que el próximo salto no es meterle

2:52

más parámetros a los modelos, sino darles una

2:54

arquitectura de memoria a largo plazo, que sea

2:57

persistente.

2:58

O sea que no sea reactivo, sino que

3:00

el sistema actúe como tu propio archivista.

3:03

Eso es.

3:04

Antes de que el modelo escupa la primera

3:06

palabra de respuesta, un sistema va y lee

3:08

un bloque gigante de tu propio archivo histórico,

3:11

lo carga en la ventana de contexto y

3:13

entonces, y solo entonces, razona.

3:15

Pero a ver, alguien te olía a decir,

3:17

oye, pues esto es como los sistemas RAG

3:19

de toda la vida.

3:21

Les subes un PDF gigante a la IA

3:23

y ya está.

3:24

¿Cuál es la diferencia?

3:25

Uf, la diferencia es abismal a nivel técnico.

3:28

En un RAG la información es estática.

3:31

Si tú lo modificas el PDF, la IA

3:33

no aprende nada nuevo.

3:35

Pero Echarme S tiene permisos de escritura.

3:39

Ostras, claro.

3:40

Puede modificar su propia memoria.

3:42

Exactamente.

3:44

Si la gente ve que siempre le corriges

3:46

un cierto tono en los correos, coge, abre

3:49

su propio archivo de reglas de forma autónoma,

3:52

lo reescribe y se guarda esa nueva regla

3:54

para el futuro.

3:55

Mutación pura.

3:56

Madre mía.

3:57

Pero claro, aquí hay un elefante en la

3:59

habitación.

4:00

Si cada vez que interactúas, la IA tiene

4:02

que leerse toda la enciclopedia de tu vida,

4:05

eso, a nivel de tokens, tiene que costar

4:08

una fortuna, una pasta.

4:10

De hecho, los informes documentan que alguien intentó

4:12

hacer esto con la API Premium de Cloud

4:14

y se dejó 64 dólares en una sola

4:17

semana.

4:18

64 pavos en una semana.

4:20

Eso, para un usuario individual, es insostenible.

4:23

Inviable, totalmente.

4:25

Por eso la primera regla para no arruinarse

4:27

es elegir bien el proveedor.

4:29

Y aquí las fuentes recomiendan muchísimo OpenAI Codex

4:32

en su versión 5.4.

4:34

¿Y eso por qué?

4:35

Es más inteligente que los modelos nuevos de

4:37

Antrópico o Gemini.

4:38

Que va, no es por capacidad de razonamiento,

4:41

es por pura supervivencia.

4:43

Las plataformas corporativas como Antropic tienen sistemas antitrampas

4:47

muy estrictos.

4:48

Si ven un flujo constante, programado y automático

4:50

de peticiones… Se creen que eres un bot

4:52

malicioso y te bloquean la cuenta.

4:54

Exacto.

4:55

Te banean sin avisar.

4:57

Sin embargo, Codex 5.4 se traga este volumen

4:59

continuo sin hacer saltar las alormas.

5:02

Es súper fiable para la base.

5:03

Vale, pero me imagino que no puedes usar

5:05

un solo modelo para todo si quieres optimizar

5:07

costes.

5:08

Ahí le has dado.

5:09

El secreto está en plataformas de enrutamiento dinámico,

5:12

como Open Router.

5:13

Es magia pura.

5:15

Es como un director de orquesta.

5:18

¿no?

5:18

Que decide a quién le manda cada tarea.

5:20

Tal cual.

5:21

Hermés evalúa lo difícil que es la tarea

5:23

que le has pedido.

5:25

Si solo es, oye, categoriza esta factura o

5:27

ponme esto en negrita, el enrutador lo manda

5:30

a un modelo súper barato y rápido.

5:32

Como Cloud Sonnet, por ejemplo.

5:33

Eso es.

5:34

Que tiene un coste marginal ridículo.

5:36

Pero si de repente le pides que audite

5:38

una arquitectura de código asíncrono o cruce datos

5:40

financieros complejos, pues entonces sí, asume el gasto

5:44

y lo manda al modelo Opus 47.

5:46

Paga por el modelo caro sólo cuando hace

5:48

falta la artillería pesada.

5:50

Y ojo que en los documentos hablaban de

5:52

un truco con Open Router, lo del modelo

5:54

Elephant.

5:55

Sí, el modelo gratuito.

5:56

Es que fíjate, metes 10 dólares de saldo

5:59

en la cuenta, un depósito mínimo, y la

6:01

plataforma te desbloquea mil peticiones diarias gratis para

6:05

ese modelo en concreto.

6:07

Una locura de ahorro.

6:08

Vale, tenemos el software y la factura controlados.

6:11

Pero esto tiene que estar encendido 24 horas.

6:14

Si lo tengo en mi portátil y bajo

6:16

la tapa, se cae todo.

6:18

Se desploma el ecosistema, sí.

6:20

Puedes intentar usar o llama en local con

6:22

modelos ligeros como QN 3.5, que por cierto

6:26

va bien, pero otros como Gamma 3B fracasaron

6:29

porque no soportan llamadas a herramientas.

6:31

Ya, pero sigues dependiendo de tener el ordenador

6:33

encendido todo el día.

6:35

Claro, la solución real es un VPS, un

6:37

servidor privado virtual en la nube.

6:39

Y aquí es donde la gente suele salir

6:42

corriendo.

6:43

Total, en cuanto les dices línea de comandos,

6:45

Linux o conexiones SSH, la mitad de la

6:48

audiencia desconecta.

6:50

Da vértigo.

6:51

Y es normal, ¿eh?

6:51

Pero los documentos muestran una herramienta brutal llamada

6:55

Open Router Spawn.

6:57

Esto te abstrae de todo ese follón técnico.

7:00

O sea, ¿no tienes que tocar código en

7:02

la terminal?

7:04

Nada.

7:05

Spawn se conecta a un proveedor como DigitalOcean,

7:07

instala la imagen, pone las variables y te

7:10

levanta los servicios.

7:11

Todo casi con un clic.

7:13

Por unos 18 dólares al mes tienes un

7:15

droplet con dos CPUs y dos gigas de

7:17

RAM.

7:18

Más que suficiente para mantener el cerebro despierto

7:21

todo el tiempo.

7:22

Vale, cambiando de tercio.

7:24

Ya tenemos la máquina funcionando en la nube.

7:27

Pero, ¿cómo interactuamos con ella?

7:29

¿Porque no vas a entrar al servidor cada

7:31

vez?

7:32

Ni de broma.

7:33

Las pruebas confirman que Telegram es la mejor

7:35

interfaz, sin duda.

7:37

Usas Botfather, creas un bot con tu identificador

7:39

y listo, lo tienes en el móvil.

7:41

Y hablaban de crear diferentes chats temáticos dentro

7:44

de Telegram, ¿verdad?

7:45

Sí, súper importante.

7:47

Tienes un chat para redes sociales, otro para

7:50

programación, otro para charlar.

7:52

Así evitas la contaminación cruzada en el contexto

7:55

del modelo.

7:56

Claro, no mezclas un análisis de métricas con

7:58

la receta de la cena.

8:00

Pero a mí lo que me fascina es

8:01

cómo se le da personalidad a esto a

8:03

través de los archivos Markdown.

8:05

Los famosos .md.

8:07

Es que la clave de toda la configuración

8:09

lógica está en un panel web local, y

8:12

sobre todo en esos tres archivos, user, souls

8:15

y agents.

8:16

A ver, es que esto es, literalmente, como

8:18

hacerte una ficha de personaje en un juego

8:20

de rol.

8:21

Totalmente.

8:22

A ver cómo lo enfocas tú.

8:23

Pues mira, el archivo user.md es el trasfondo,

8:27

el lore de tu personaje.

8:29

Que vives en Madrid, que tienes un perro,

8:31

tu estado civil.

8:32

Es el contexto pasivo.

8:34

Luego, souls.md es el carisma, el tono, la

8:39

empatía.

8:40

El alma de la gente.

8:42

Exacto.

8:42

Y agents.mdd son las habilidades de combate.

8:46

Las reglas súper estrictas de sintaxis o código

8:49

que la IA no puede saltarse jamás.

8:52

Y fíjate que esta separación, que suena a

8:54

broma de rol, a nivel de redes neuronales

8:57

es un escudo anti alucinaciones bestial.

9:00

¿Por qué?

9:00

Si al final la IA se lee los

9:02

tres archivos igual.

9:03

Sí, pero al estar en bloques separados, obligas

9:06

al mecanismo de atención del modelo a ponderarlos

9:09

de forma independiente.

9:11

Si tú metes un prompt kilométrico tradicional donde

9:14

mezclas el tono divertido con las reglas de

9:16

código estricto, se lía así.

9:19

Los pesos estadísticos se contaminan y la IA

9:21

te pone variables de código con nombres graciosos

9:24

o se salta tabulaciones porque está en modo

9:26

creativo.

9:27

Claro.

9:28

Separando los archivos, le puedes decir en souls.md

9:31

que actúe modo hype, súper motivado o incluso

9:35

como un pirata.

9:36

Y te dará los buenos días súper eufórico.

9:39

Pero cuando genere código basado en agents.md, será

9:43

impecable.

9:44

Sintaxis pura sin que la creatividad le afecte

9:47

lo más mínimo.

9:48

Vale, me parece brillante.

9:50

Pero ahora viene para mí la parte más

9:51

ciencia ficción de todo esto.

9:53

Hemos hablado de pedirle cosas, pero ¿este sistema

9:56

es proactivo?

9:57

Da el salto, sí.

9:58

Pasa de estar esperando órdenes a iniciar la

10:00

conversación.

10:02

Y lo hace con lo que los arquitectos

10:03

llaman heartbeats.

10:05

Latidos.

10:06

Esto viene de la filosofía de OpenCloud y

10:08

el comando aquel famoso de sorpréndeme, ¿no?

10:11

Exactamente.

10:12

Básicamente son cronjobs, tareas programadas a nivel de

10:15

servidor.

10:15

Tú le dices, oye, despiértate cada día a

10:18

las 8 de la mañana y mira a

10:19

ver si hay algo interesante.

10:21

Y aquí el caso de la salud es

10:22

alucinante.

10:23

Por favor, repasa ese caso porque yo cuando

10:25

lo leía estaba alucinada.

10:27

Fíjate, conectan una aplicación para volcar los datos

10:30

cerrados de Apple Health en el directorio local

10:33

del servidor.

10:34

La IA se despierta, ve esos datos en

10:37

bruto sobre el sueño y dice, vale, esto

10:39

es ilegible para un humano.

10:41

Y en vez de simplemente resumir, ¿qué hace?

10:43

Pues escribe un script en Python por sí

10:46

misma.

10:47

Crea una herramienta para limpiar el ruido de

10:48

los datos, calcular medias y aislar los días

10:51

malos.

10:52

Y descubre que el usuario durmió una media

10:54

de siete horas y media, pero hubo un

10:56

día crítico de cinco horas.

10:58

¡Ostras!

10:59

Pero lo fuerte es que no borre el

11:01

script.

11:02

Se da cuenta de que es útil, lo

11:03

guarda como una habilidad permanente y a la

11:06

mañana siguiente… A la mañana siguiente, el latido

11:08

salta de nuevo.

11:10

Pero la IA ya no gasta tiempo ni

11:12

tokens en pensar cómo procesar.

11:14

Ejecute el script guardado y te manda el

11:16

informe por Telegram directamente.

11:18

Te dice, oye, has dormido fatal hoy.

11:21

Ojo con el rendimiento.

11:23

A ver, yo aquí tengo que hacer de

11:25

abogada del diablo.

11:26

Un sistema que te vigila el sueño y

11:28

te manda notificaciones médicas no solicitadas.

11:32

Suena un poco a distopía de Silicon Valley.

11:35

Suena intrusivo total.

11:37

Es verdad, sobre todo si pensamos en las

11:38

apps comerciales de hoy en día, que solo

11:40

quieren tu atención para venderte cosas.

11:43

Claro, la economía de la atención.

11:44

Pero aquí radica la diferencia brutal.

11:47

Este ecosistema lo alojas tú.

11:49

Tú controlas los cronjobs.

11:51

Los datos biométricos jamás salen de tu servidor

11:54

privado.

11:55

No te están vendiendo nada.

11:57

Solo transforman un dato pasivo en inteligencia accionable

12:00

para ti.

12:00

Vale, visto así, al ser local y privado,

12:03

la cosa cambia.

12:04

Y hablaban de otro caso de uso, saltándose

12:06

restricciones en redes sociales, ¿no?

12:08

Con threads.

12:09

Buah, ese es un ejemplo técnico espectacular de

12:12

cómo evitan los muros corporativos.

12:15

Ya sabes que las APIs oficiales de Meta

12:16

son súper restrictivas.

12:18

Sí, te cierran el grifo rápido si intentas

12:20

automatizar cosas.

12:21

Pues Erms usa una extensión llamada getcookies.ext.

12:25

Básicamente se exportan las credenciales de sesión encriptadas

12:28

de tu propio navegador al servidor.

12:31

O sea, que la IA finge ser tú

12:33

entrando desde tu ordenador.

12:34

Exacto.

12:35

Se salta las barreras de autenticación como si

12:37

fuera un humano legítimo navegando.

12:40

Se metió en decenas de hilos, sacó el

12:42

texto, las réplicas, las interacciones y sacó conclusiones.

12:46

Y conclusiones útiles, porque descubrió que cuando hablaban

12:48

del propio agente ERMS o de hardware productivo,

12:52

las métricas se disparaban.

12:53

Hizo una auditoría de redes sociales completa y

12:56

gratis, sin que nadie moviera un dedo.

12:58

Es que es muy fuerte.

13:01

Pero claro, para que todo esto converja, llegamos

13:03

al concepto del CIO definitivo que mencionaban las

13:07

fuentes.

13:07

El director de orquesta.

13:09

Porque, claro, ERMS no puede hacerlo todo solo

13:12

sin saturarse.

13:13

Necesita delegar.

13:14

Es como conectar la consola de Google Cloud

13:16

para que lea el correo y el calendario.

13:20

La IA ve que el jueves tienes una

13:21

cita médica presencial de 5 a 6, lee

13:24

un correo de un cliente urgente y te

13:26

reorganiza el día.

13:28

Y ahí es donde entra la arquitectura multiagente.

13:31

Es que ya no hablamos de un cerebro

13:33

único y monolítico.

13:34

es una empresa.

13:36

Literal.

13:37

Herms es el CEO, atiende el teléfono en

13:39

Telegram, toma las decisiones rápidas, pero si le

13:42

dices, oye, hazme una investigación profunda sobre el

13:45

mercado inmobiliario en Valencia.

13:46

Herms dice, vale, esto me va a llevar

13:49

horas, pues se lo delega a un subordinado,

13:52

a OpenCloth.

13:54

Le da las instrucciones y OpenCloth se tira

13:56

cinco horas navegando en segundo plano, mientras Herms

13:59

sigue libre para contestarte por Telegram.

14:01

Y cuando el subordinado termina, le pasa el

14:04

informe limpio al jefe.

14:06

Pero, a ver, técnicamente, para que no se

14:08

pise en la memoria a estos dos agentes,

14:10

¿cómo lo hacen?

14:11

Esa es la magia de los archivos Markdown

14:13

y de usar un servidor NAS.

14:15

Todos los agentes leen y escriben en la

14:17

misma carpeta física del servidor.

14:19

¿Es la misma fuente de verdad para todos?

14:21

Eso es.

14:22

Al usar Markdown, que es texto plano y

14:23

súper ligero, tanto las máquinas como nosotros podemos

14:27

leerlo sin problemas.

14:28

No hay formatos propietarios cerrados.

14:30

¿Y para visualizar todo este enjambre de datos

14:33

sin volverte loco, usas Obsidian?

14:35

Obsidian es la guinda del pastel.

14:38

Conectas Obsidian a esa carpeta del NAS y

14:41

te renderiza todos esos miles de archivos de

14:43

texto en un mapa visual, con nodos conectados.

14:47

¿Ves literalmente tu segundo cerebro digital latiendo en

14:51

directo?

14:52

Nodos que se actualizan solos mientras hablas con

14:54

el bot.

14:55

Es una maravilla técnica.

14:57

Rompe por completo la barrera entre la máquina

14:59

y la mente humana.

15:00

Pero claro, llegar a este nivel de monitorización

15:03

invisible plantea un dilema, tela de profundo.

15:06

Ya te digo, porque al final estás montando

15:09

una infraestructura que se traga tus correos, sabe

15:12

cómo duermes, lee tus finanzas, entiende cómo hablas

15:16

a lo largo de los meses.

15:17

Ya no es un asistente, es un espejo

15:20

absoluto de tu vida.

15:21

Un espejo estadístico perfecto.

15:23

La máquina empieza a haber correlaciones que a

15:25

ti se te escapan totalmente.

15:27

Es que, imagínate, si esta red persistente pilla

15:31

patrones ocultos entre tu nivel de cansancio físico

15:33

y las malas decisiones que tomas en el

15:36

trabajo o lo que compras.

15:37

La pregunta es inevitable, ¿no?

15:39

Llegará un punto en el que este ecosistema

15:42

entienda tus sesgos, tus malos hábitos y tus

15:44

bajones de productividad mucho mejor de lo que

15:46

te conoces tú mismo.

15:48

Es que yo creo que sí, la tecnología

15:50

ya está aquí, las APIs lo permiten, el

15:52

código funciona… El límite ya no es técnico,

15:55

es puramente psicológico.

15:57

¿Estamos preparados para cederle la auditoría de nuestra

16:00

vida a las matemáticas de un algoritmo?

16:02

Uf, construir un observador silencioso que termina conociendo

16:06

tus defectos mejor que tu propio cerebro, que

16:08

siempre se intenta engañar y justificar a sí

16:11

mismo, es fascinante a nivel de ingeniería.

16:13

Pero pone los pelos de punta a nivel

16:15

de privacidad existencial.

16:17

Desde luego, dejaremos esta reflexión flotando en el

16:20

ambiente hasta el próximo análisis a fondo.

16:24

Antes de despedirnos hasta el próximo programa, os

16:27

informamos de que las voces que oyes han

16:29

sido generalas por la IA de Notebook LM

16:31

y que dirigiendo el podcast se encuentra Julio

16:34

Pablo Vázquez, un humano que te envía saludos.

16:37

En caso de error, probablemente sean errores humanos.

16:41

¡Nos escuchamos!

16:53

Y hasta aquí el episodio de hoy.

16:55

Muchas gracias por tu atención.

17:06

Esto es BIMPRAXIS.

17:09

Nos escuchamos en el próximo episodio.

17:32

¡Suscríbete al canal!