E029_Llama 3: el terremoto del código abierto

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidos. Hoy nos sumergimos en un documento que, bueno, es muy muy reciente,

0:43

pero que ya está agitando las aguas de una forma que se siente histórica.

0:48

Totalmente.

0:48

Es uno de esos papers que, desde el momento en que se publican, sabes que van a definir la conversación durante mucho tiempo.

0:55

Y es que, aunque sea de 2024, encaja a la perfección en esta serie que estamos haciendo.

1:00

Para ponerlo en contexto, este es el episodio número 15 de la serie especial de BIMPRAXIS.

1:05

Los papers que cambiaron la historia de la IA.

1:07

Exacto. Y este, sin duda, ya se ha ganado un sitio en esa lista. Es como si un nuevo titán acabase de entrar en la arena.

1:13

El titán se llama The Llama 3, Heard of Models.

1:17

O...

1:17

La manada de modelos, Llama 3.

1:20

Se publicó en el repositorio Archive en julio de 2024, con una revisión en noviembre.

1:26

Y aquí va el primer dato que te obliga a releer la frase.

1:29

A ver.

1:30

Lo firman 559 autores. 559.

1:36

Es una cifra que parece una errata, pero no lo es. Y nos dice muchísimo antes incluso de leer el resumen.

1:42

Ya me imagino.

1:42

Una autoría tan masiva es el reflejo de una nueva era en la investigación de la IA.

1:46

Esto ya no es el trabajo de un pequeño laboratorio académico, ¿sabes?

1:50

Claro.

1:51

Es un esfuerzo industrial, una obra de ingeniería a la escala de construir una presa o lanzar un programa espacial.

1:57

Es la manifestación de los recursos monumentales que se necesitan hoy.

2:01

Imagínate intentar coordinar la agenda de 559 personas para una reunión.

2:06

Más allá de la logística, lo que esto nos indica es la complejidad del proyecto.

2:10

Sin duda.

2:11

Así que nuestra misión hoy es precisamente esa.

2:14

Desentrañar qué es exactamente la materia.

2:16

¿Por qué su publicación es un evento tan significativo?

2:21

Y sobre todo, ¿qué nos dice sobre la estrategia y la dirección que está tomando la inteligencia artificial?

2:27

Pues vamos a ello.

2:28

Empecemos a desentrañar este gigante.

2:31

Por el principio, que como dices, es el propio nombre.

2:34

Exacto. El título habla de A Herd of Models, una manada de modelos.

2:39

No es el modelo Lama 3, sino una manada.

2:43

¿Es solo un marketing poético o hay algo más?

2:46

¿Hay algo más detrás de esa palabra?

2:48

No, no, para nada. Hay mucho más.

2:50

Es una elección de palabras muy deliberada y, de hecho, muy técnica.

2:54

¿Ah, sí?

2:55

Sí. Según el paper, Lama 3 no es una sola entidad, sino un conjunto de modelos fundacionales.

3:02

Vale, modelos fundacionales.

3:04

Un modelo fundacional es como el motor de un coche.

3:06

Es la pieza central, preentrenada con una cantidad salvaje de datos,

3:10

sobre la cual se pueden construir aplicaciones más específicas.

3:14

Entiendo.

3:14

La idea de manada transmite que no te dan un supuesto.

3:16

No es un solo motor, sino toda una gama.

3:19

Tienes motores de distintos tamaños, potencias y especializaciones, listos para diferentes tareas.

3:24

O sea, desde un utilitario ágil hasta un camión de mercancías, por así decirlo.

3:29

Justo. Esa es la idea.

3:31

Entendido. Y el documento dice que estos motores soportan nativamente varias capacidades clave.

3:40

Multilingüismo, programación, lo que llaman coding, razonamiento y uso de herramientas.

3:45

Ajá.

3:46

La palabra clave ahí parece ser nativamente.

3:49

¿Por qué es tan importante que esas habilidades sean nativas y no, digamos, aprendidas?

3:55

Lo fascinante aquí es que la palabra nativamente sugiere una diferencia filosófica en el diseño.

4:00

No es un añadido posterior, no es un parche.

4:03

Claro.

4:04

Significa que esas habilidades han sido integradas en la arquitectura central del modelo desde las primeras fases de su entrenamiento.

4:10

En la práctica, esto las hace mucho más robustas y eficientes.

4:15

Analogía.

4:16

¿Verdad? Es como si, en vez de ser un políglota que después aprende a programar,

4:21

fuera un ser que nació hablando fluidamente idiomas humanos y lenguajes de máquina al mismo tiempo.

4:27

Esa es una excelente analogía. Perfecta. No es un modelo de lenguaje al que le han enseñado trucos de programación.

4:34

Ya.

4:34

Es un sistema que, desde su concepción, fue diseñado para tratar el código de Python con la misma naturalidad que el español o el inglés.

4:42

Y eso se aplica también al razonamiento y al uso de herramientas.

4:45

Exacto.

4:46

Porque está diseñado desde cero para poder seguir cadenas lógicas complejas e interactuar con otras aplicaciones,

4:53

no como una habilidad que se le fuerza después.

4:56

Exactamente.

4:56

Y supongo que para que esa capacidad nativa sea realmente potente,

5:00

tiene que estar respaldada por una escala y unas cifras que la sitúen en la élite.

5:04

Claro.

5:05

Y aquí es donde los números se ponen realmente interesantes.

5:08

El paper destaca su modelo más grande.

5:12

Un transformer denso de 405 millones.

5:16

Un momento. Antes de seguir, aclaremos eso de transformer denso.

5:21

Para quien no esté familiarizado, transformer es la arquitectura neuronal que revolucionó el campo y es la base de todos estos gigantes.

5:29

Cierto.

5:29

Y denso simplemente significa que, a grandes rasgos, todas sus neuronas virtuales están interconectadas entre sí, creando una red increíblemente compleja.

5:39

Gracias por la aclaración.

5:41

Entonces, ese transformer denso tiene 405 millones de parámetros.

5:46

¿Cómo podemos visualizar esa cifra?

5:48

Es complicado, porque las cifras son astronómicas.

5:52

Los parámetros son, en esencia, las conexiones ajustables dentro de esa red neuronal.

5:57

Son como las sinapsis en un cerebro, las que le permiten aprender patrones.

6:01

Vale.

6:02

405 mil millones de parámetros lo colocan directamente en la liga de los modelos más grandes y potentes que existen en el mundo.

6:10

O sea, al nivel de los grandes conocidos.

6:13

Sí. Modelos como GPT-4 de OpenAI.

6:16

Aunque sus cifras exactas no son públicas, se estima que se mueven en ese orden de magnitud.

6:21

Tener tantos parámetros le da una capacidad teórica inmensa para capturar matices y relaciones complejas, ya sea en un soneto, en un balance financiero o en el código fuente de un sistema operativo.

6:32

Una capacidad de aprendizaje descomunal.

6:34

Y junto a esa cifra mencionan otra que es igual de impactante.

6:39

Una ventana de contexto de hasta 128.000 tokens.

6:43

Y esto es clave para la usabilidad del modelo.

6:45

¿Qué es la ventana de contexto?

6:46

La ventana de contexto es, en esencia, la memoria a corto plazo del modelo durante una tarea.

6:50

¿Su memoria de trabajo?

6:52

Exacto. 128.000 tokens es una barbaridad.

6:56

Un token es más o menos tres cuartas partes de una palabra.

7:00

Esto significa que el modelo puede procesar y recordar el equivalente a un libro de unas 250 o 300 páginas en una sola interacción.

7:08

Un libro entero.

7:10

Pero, ¿tiene esto un coste oculto?

7:12

¿Se vuelve más lento o más caro de usar?

7:16

¿Con una memoria tan grande?

7:18

¿O incluso hay riesgo de que se confunda con tanta información?

7:21

Esa es la pregunta del millón.

7:23

Y la respuesta es sí a todo.

7:25

En cierto modo, hay un trade-off.

7:27

Claro, siempre lo hay.

7:29

Una ventana de contexto más grande consume más recursos computacionales.

7:33

Lo que se traduce en que cada interacción puede ser más lenta y más cara.

7:36

Lógico.

7:37

Y sí, existe el riesgo de lo que se llama perderse en el medio.

7:41

Cuando el contexto es tan largo, a veces los modelos tienden a prestar más atención a la información del modelo.

7:44

A veces los modelos tienden a prestar más atención a la información del modelo.

7:45

A veces los modelos tienden a prestar más atención a la información del principio y del final,

7:47

olvidando detalles cruciales que están en el centro.

7:50

¡Ah, mira!

7:50

Sin embargo, el paper sugiere que han trabajado mucho en mitigar estos problemas.

7:55

Y las ventajas son enormes.

7:57

Poder analizar un contrato legal de 200 páginas,

8:00

leer la documentación completa de una API para programar sobre ella.

8:04

O mantener una conversación muy larga sin que se le olviden las cosas.

8:08

Justo.

8:09

Abre la puerta a tareas que antes eran impensables.

8:11

Vale, el modelo es enorme, tiene una memoria prodigiosa,

8:14

pero con sus costumbres.

8:16

Ahora, la gran pregunta.

8:18

¿Cómo rinde?

8:19

El paper hace una afirmación muy directa.

8:22

Cito.

8:23

Llama 3 ofrece una calidad comparable a la de los principales modelos de lenguaje,

8:28

como GPT-4, en una gran cantidad de tareas.

8:32

Esta es una declaración muy fuerte.

8:34

Es una declaración de intenciones potentísima.

8:36

Es plantar una bandera en la cima de la montaña.

8:39

Pero esa es una afirmación que hacen ellos en su propio paper.

8:42

¿Tenemos benchmarks independientes que lo confirmen?

8:45

Porque en este campo, todos tienden a decir que su modelo es el mejor

8:49

en las métricas que ellos mismos eligen para publicar.

8:52

Tienes toda la razón en ser escéptica.

8:54

Es la actitud correcta.

8:56

Es cierto que cada laboratorio tiende a publicar los benchmarks

8:59

donde su modelo brilla más.

9:01

Claro.

9:02

Sin embargo, la afirmación es significativa por dos motivos.

9:05

Primero, porque se atreven a hacer la comparación directa

9:08

con el que ha sido el rey indiscutible, GPT-4.

9:11

Y segundo, y esto es lo más importante,

9:15

el modelo están invitando al mundo entero a que verifique esa afirmación.

9:19

Ah, es verdad.

9:21

Ya no es una caja negra.

9:22

Cualquiera puede descargarlo y ponerlo a prueba en sus propias tareas,

9:26

en benchmarks públicos como el LMS Chatbot Arena,

9:29

donde usuarios reales votan a ciegas por la mejor respuesta.

9:33

La verdadera prueba de fuego empieza ahora, en manos de la comunidad.

9:37

Y eso nos lleva al verdadero meollo del asunto.

9:40

Afirman que compiten con GPT-4, que es un sistema cerrado.

9:44

Pero supuestamente,

9:45

su gran movimiento es justamente el contrario, la liberación pública.

9:50

Exacto.

9:51

¿Qué sentido tiene hacer esa comparación

9:53

si luego no vas a competir en el mismo terreno?

9:56

¿Cuál es el movimiento estratégico aquí?

9:59

Es que la estrategia no es competir en el mismo terreno,

10:01

sino cambiar las reglas del juego por completo.

10:04

A ver.

10:04

La decisión de liberar un modelo de 405B parámetros

10:08

con un rendimiento que aspira a ser da élite,

10:10

es un terremoto para el ecosistema.

10:12

Es la jugada más audaz que hemos visto en el debate de

10:15

código abierto contra código cerrado.

10:17

¿Por qué?

10:18

¿Qué cambia realmente para la industria?

10:20

Cambia el equilibrio de poder.

10:23

Si conectamos esto con el panorama general,

10:25

estamos viendo nacer la gran batalla de las plataformas de IA.

10:28

¿Vale?

10:29

Por un lado, tienes el modelo iOS de Apple,

10:32

que es el de Open Open AI con GPT-4.

10:35

Un jardín vallado, un ecosistema cerrado,

10:37

muy pulido, muy controlado,

10:40

donde accedes a través de su API.

10:41

Sí.

10:42

Por otro lado, tienes el modelo Android,

10:44

una plataforma abierta.

10:46

Eso es lo que Meta está intentando construir con Llama.

10:49

Al liberar un modelo tan potente,

10:52

están democratizando el acceso a la IA de vanguardia.

10:54

Pero, democratizar es una palabra que se usa mucho.

10:58

¿Qué significa en la práctica?

11:00

¿Y qué gana Meta con ello, si lo está regalando?

11:03

En la práctica, significa que una startup en Valencia,

11:06

un grupo de investigación en una universidad de Buenos Aires,

11:09

o un desarrollador independiente en su casa, pueden,

11:12

si tienen los recursos de computación,

11:14

descargar este motor de última generación,

11:16

estudiarlo, adaptarlo.

11:18

¿Y construir sobre él?

11:20

Exacto. Y construir sobre él.

11:22

Esto fomenta una ola de innovación

11:24

fuera del control de los gigantes tecnológicos.

11:26

Ya.

11:28

Y lo que Meta gana es estratégico.

11:30

Su negocio principal no es vender acceso a la IA,

11:32

es la publicidad.

11:34

Están aplicando una táctica clásica,

11:36

comoditizar el complemento.

11:38

Explica eso.

11:39

Si haces que los modelos de IA de alta gama,

11:41

con una comodity gratuita, debilitas a tus rivales,

11:43

cuyo principal negocio es vender acceso a esos modelos,

11:46

y fomentas que todo un ecosistema construya sobre tu tecnología,

11:49

lo que a la larga te beneficia.

11:51

Actura por defecto de la nueva era de la IA.

11:53

Justo. Una jugada maestra.

11:55

Una jugada maestra a nivel estratégico, entonces.

11:58

Y junto con este motor potentísimo,

12:00

el paper dice que también liberan algo llamado LamaWard 3

12:04

para la seguridad de entradas y salidas.

12:06

Sí.

12:07

Parece una especie de guardaespaldas digital.

12:09

Es una descripción móvil.

12:10

Es una descripción muy acertada.

12:12

LamaWard 3 es, casi con total seguridad,

12:14

un modelo más pequeño y especializado,

12:16

entrenado para una única misión,

12:18

la moderación de contenido.

12:20

Vale.

12:21

Analiza las peticiones que recibe el modelo principal

12:23

y las respuestas que genera,

12:25

para filtrar y prevenir contenido dañino, sesgado o inapropiado.

12:29

Y el hecho de que lo liberen junto al modelo principal.

12:31

Es un claro ejercicio de responsabilidad.

12:33

Te están dando la herramienta de poder y la de seguridad.

12:36

Pero, ¿este guardia es de uso obligatorio

12:39

o es opcional?

12:40

¿Qué pasa si alguien descarga el modelo

12:42

y decide simplemente no usarlo?

12:45

Es totalmente opcional.

12:47

Y ahí está el quid de la cuestión del código abierto.

12:50

Meta te da las herramientas para un uso seguro,

12:53

pero no puede obligarte a usarlas.

12:55

Claro.

12:56

Es como si al venderte un coche de Fórmula 1

12:58

te dieran también los mejores frenos y sistemas de control.

13:02

Te están diciendo,

13:03

aquí tienes algo increíblemente potente

13:06

y aquí tienes cómo usarlo de forma segura.

13:08

Pero en última instancia,

13:09

el conductor tiene el control.

13:11

Exacto.

13:12

Esta libertad es lo que hace tan potente al código abierto,

13:15

pero también lo que abre el debate sobre la responsabilidad final.

13:19

Un debate que seguro que seguirá.

13:21

Pero la ambición no se detiene en el texto.

13:23

El paper dedica una sección a mirar hacia el futuro,

13:26

y ese futuro es multimodal.

13:28

Sí.

13:29

Hablan de integrar capacidades de imagen,

13:31

vídeo y voz.

13:32

Sí, y es un vistazo muy revelador.

13:34

Mencionan que lo están haciendo a través de un

13:37

enfoque composicional.

13:39

¿Y eso qué significa?

13:41

Pues sugiere que en lugar de construir

13:43

un único modelo monolítico gigantesco que lo haga todo,

13:46

lo cual sería extremadamente complejo y caro,

13:49

probablemente estén conectando el poder de Llama 3,

13:53

como cerebro lingüístico,

13:55

con otros modelos especializados en visión o audio.

13:58

Ah, como si le conectaran diferentes sentidos al cerebro principal.

14:02

Es un enfoque mucho más modular, sí.

14:04

Y dicen que los resultados son competitivos,

14:06

pero apuntan un detalle crucial.

14:08

Estos modelos multimodales aún no se están liberando de forma generalizada

14:13

porque todavía están en desarrollo.

14:15

Y esa es una decisión muy prudente y significativa.

14:18

Esto plantea una pregunta importante.

14:20

¿Por qué ser tan audaces liberando el modelo de texto más grande,

14:23

pero tan cautos con los multimodales?

14:25

Entonces, ¿están admitiendo implícitamente que no tienen todavía un

14:29

Llama Word para imágenes y vídeo que sea lo bastante bueno

14:33

como para soltarlo al público?

14:35

Exactamente. Has dado en el clavo.

14:38

La multimodalidad añade capas de riesgo exponencialmente mayores.

14:43

Claro, no es lo mismo.

14:45

Ya no hablamos sólo de texto inapropiado.

14:47

Hablamos de la generación de deepfakes de vídeo y audio,

14:50

de desinformación visual a gran escala.

14:53

Moderar imágenes, vídeos y voces es un desafío técnico y ético

14:57

mucho más complejo que moderar texto.

14:59

Muchísimo más.

15:01

Su cautela aquí sugiere que están tomándose muy en serio esos riesgos,

15:04

y que prefieren esperar a tener soluciones de seguridad más robustas.

15:08

Tiene todo el sentido.

15:10

Entonces, ¿qué significa todo esto?

15:12

Si tuviéramos que resumir el impacto de este paper en tres ideas clave,

15:16

¿cuáles serían?

15:17

Yo diría que la primera es que Llama 3 no es un modelo.

15:20

Es una manada.

15:21

Una plataforma completa de herramientas fundacionales potentísimas.

15:25

Vale. Primera idea.

15:27

La segunda, que es un modelo estrella de 405 B parámetros,

15:31

no sólo es enorme,

15:33

sino que se postula para competir de tú a tú en la primera división

15:37

con los mejores modelos cerrados del mundo.

15:39

Y la tercera, y la más importante,

15:42

es que este poder no se queda encerrado en un laboratorio.

15:45

Está disponible para todos,

15:47

lo que supone un catalizador masivo para la innovación en el campo del código abierto.

15:51

Y además, ya nos dan una pista de lo que viene después.

15:55

Un futuro donde la IA no sólo leerá y escribirá,

15:58

sino que también verá, oirá y hablará.

16:01

Exacto.

16:02

En perspectiva global, este paper es un hito

16:04

para el movimiento de la inteligencia artificial de código abierto.

16:07

Sin duda.

16:08

Durante años ha existido el temor de que la IA más avanzada

16:11

quedara exclusivamente en manos de unas pocas corporaciones.

16:15

La liberación de Llama 3 es el contrapeso más fuerte y real

16:19

que hemos visto hasta ahora a esa tendencia.

16:22

Es un cambio de paradigma.

16:24

Potencialmente.

16:25

Puede acelerar la innovación a nivel mundial

16:27

al poner herramientas de élite en manos de una comunidad global de desarrolladores.

16:31

Es un antes y un después.

16:33

Me quedo pensando en algo.

16:35

El paper insiste mucho en la responsabilidad,

16:37

en dar herramientas como Llama Guard.

16:39

Pero al abrir la caja de Pandora

16:41

y entregar un motor tan potente a todo el mundo,

16:44

la responsabilidad se difumina.

16:47

Ya no estás sólo en el creador,

16:49

sino en miles de manos anónimas que pueden modificarlo.

16:52

La pregunta que queda en el aire es si,

16:54

como comunidad global, estamos preparados para manejar este poder.

16:58

Es la pregunta fundamental.

16:59

¿Superan los innegables beneficios del acceso abierto

17:03

a los riesgos potenciales que también se abren de par en par?

17:07

Es la pregunta fundamental de nuestra era

17:09

y no tiene una respuesta fácil, la verdad.

17:11

Mañana continuaremos nuestro viaje por la historia de la IA

17:15

con otro paper que, les aseguro, es fascinante

17:19

y cambió las reglas del juego en su momento.

17:21

No se lo pierdan.

17:22

Y hasta aquí el episodio de hoy.

17:35

Muchas gracias por tu atención.

17:47

Esto es BIMPRAXIS.

17:49

Nos escuchamos en el próximo episodio.

E029_Llama 3: el terremoto del código abierto

Episode description

Persons