E029_Llama 3: el terremoto del código abierto
Ep. 29

E029_Llama 3: el terremoto del código abierto

Episode description

🦙 ¿Está Llama 3 a la altura de GPT-4? En este episodio desgranamos el paper “The Llama 3 Herd of Models”, donde se presenta la nueva familia de modelos fundacionales que está sacudiendo el panorama de la Inteligencia Artificial. Analizamos a la joya de la corona: un Transformer denso de 405.000 millones de parámetros con una impresionante ventana de contexto de 128K tokens. Descubre cómo este ““rebaño”” (herd) de modelos nativos domina tareas complejas de programación 💻, razonamiento lógico 🧠 y multilingüismo 🌍, ofreciendo una calidad comparable a los sistemas cerrados líderes del mercado. 🔬 Pero la evolución va más allá del texto. Exploramos el enfoque composicional de Llama 3 para integrar capacidades multimodales de imagen, video 📹 y voz 🗣️, las cuales ya muestran un rendimiento competitivo frente al estado del arte. Además, discutimos la implementación de Llama Guard 3, el guardián diseñado para garantizar la seguridad tanto en las entradas como en las salidas del modelo. Si quieres entender la arquitectura detrás de esta revolución y qué significa para el futuro de la IA, ¡dale al play y acompáñanos en este análisis técnico! 🎧✨ Fuentes: • The Llama 3 Herd of Models (arXiv:2407.21783)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:37

Hola y bienvenidos. Hoy nos sumergimos en un documento que, bueno, es muy muy reciente,

0:43

pero que ya está agitando las aguas de una forma que se siente histórica.

0:48

Totalmente.

0:48

Es uno de esos papers que, desde el momento en que se publican, sabes que van a definir la conversación durante mucho tiempo.

0:55

Y es que, aunque sea de 2024, encaja a la perfección en esta serie que estamos haciendo.

1:00

Para ponerlo en contexto, este es el episodio número 15 de la serie especial de BIMPRAXIS.

1:05

Los papers que cambiaron la historia de la IA.

1:07

Exacto. Y este, sin duda, ya se ha ganado un sitio en esa lista. Es como si un nuevo titán acabase de entrar en la arena.

1:13

El titán se llama The Llama 3, Heard of Models.

1:17

O...

1:17

La manada de modelos, Llama 3.

1:20

Se publicó en el repositorio Archive en julio de 2024, con una revisión en noviembre.

1:26

Y aquí va el primer dato que te obliga a releer la frase.

1:29

A ver.

1:30

Lo firman 559 autores. 559.

1:36

Es una cifra que parece una errata, pero no lo es. Y nos dice muchísimo antes incluso de leer el resumen.

1:42

Ya me imagino.

1:42

Una autoría tan masiva es el reflejo de una nueva era en la investigación de la IA.

1:46

Esto ya no es el trabajo de un pequeño laboratorio académico, ¿sabes?

1:50

Claro.

1:51

Es un esfuerzo industrial, una obra de ingeniería a la escala de construir una presa o lanzar un programa espacial.

1:57

Es la manifestación de los recursos monumentales que se necesitan hoy.

2:01

Imagínate intentar coordinar la agenda de 559 personas para una reunión.

2:06

Más allá de la logística, lo que esto nos indica es la complejidad del proyecto.

2:10

Sin duda.

2:11

Así que nuestra misión hoy es precisamente esa.

2:14

Desentrañar qué es exactamente la materia.

2:16

¿Por qué su publicación es un evento tan significativo?

2:21

Y sobre todo, ¿qué nos dice sobre la estrategia y la dirección que está tomando la inteligencia artificial?

2:27

Pues vamos a ello.

2:28

Empecemos a desentrañar este gigante.

2:31

Por el principio, que como dices, es el propio nombre.

2:34

Exacto. El título habla de A Herd of Models, una manada de modelos.

2:39

No es el modelo Lama 3, sino una manada.

2:43

¿Es solo un marketing poético o hay algo más?

2:46

¿Hay algo más detrás de esa palabra?

2:48

No, no, para nada. Hay mucho más.

2:50

Es una elección de palabras muy deliberada y, de hecho, muy técnica.

2:54

¿Ah, sí?

2:55

Sí. Según el paper, Lama 3 no es una sola entidad, sino un conjunto de modelos fundacionales.

3:02

Vale, modelos fundacionales.

3:04

Un modelo fundacional es como el motor de un coche.

3:06

Es la pieza central, preentrenada con una cantidad salvaje de datos,

3:10

sobre la cual se pueden construir aplicaciones más específicas.

3:14

Entiendo.

3:14

La idea de manada transmite que no te dan un supuesto.

3:16

No es un solo motor, sino toda una gama.

3:19

Tienes motores de distintos tamaños, potencias y especializaciones, listos para diferentes tareas.

3:24

O sea, desde un utilitario ágil hasta un camión de mercancías, por así decirlo.

3:29

Justo. Esa es la idea.

3:31

Entendido. Y el documento dice que estos motores soportan nativamente varias capacidades clave.

3:40

Multilingüismo, programación, lo que llaman coding, razonamiento y uso de herramientas.

3:45

Ajá.

3:46

La palabra clave ahí parece ser nativamente.

3:49

¿Por qué es tan importante que esas habilidades sean nativas y no, digamos, aprendidas?

3:55

Lo fascinante aquí es que la palabra nativamente sugiere una diferencia filosófica en el diseño.

4:00

No es un añadido posterior, no es un parche.

4:03

Claro.

4:04

Significa que esas habilidades han sido integradas en la arquitectura central del modelo desde las primeras fases de su entrenamiento.

4:10

En la práctica, esto las hace mucho más robustas y eficientes.

4:15

Analogía.

4:16

¿Verdad? Es como si, en vez de ser un políglota que después aprende a programar,

4:21

fuera un ser que nació hablando fluidamente idiomas humanos y lenguajes de máquina al mismo tiempo.

4:27

Esa es una excelente analogía. Perfecta. No es un modelo de lenguaje al que le han enseñado trucos de programación.

4:34

Ya.

4:34

Es un sistema que, desde su concepción, fue diseñado para tratar el código de Python con la misma naturalidad que el español o el inglés.

4:42

Y eso se aplica también al razonamiento y al uso de herramientas.

4:45

Exacto.

4:46

Porque está diseñado desde cero para poder seguir cadenas lógicas complejas e interactuar con otras aplicaciones,

4:53

no como una habilidad que se le fuerza después.

4:56

Exactamente.

4:56

Y supongo que para que esa capacidad nativa sea realmente potente,

5:00

tiene que estar respaldada por una escala y unas cifras que la sitúen en la élite.

5:04

Claro.

5:05

Y aquí es donde los números se ponen realmente interesantes.

5:08

El paper destaca su modelo más grande.

5:12

Un transformer denso de 405 millones.

5:16

Un momento. Antes de seguir, aclaremos eso de transformer denso.

5:21

Para quien no esté familiarizado, transformer es la arquitectura neuronal que revolucionó el campo y es la base de todos estos gigantes.

5:29

Cierto.

5:29

Y denso simplemente significa que, a grandes rasgos, todas sus neuronas virtuales están interconectadas entre sí, creando una red increíblemente compleja.

5:39

Gracias por la aclaración.

5:41

Entonces, ese transformer denso tiene 405 millones de parámetros.

5:46

¿Cómo podemos visualizar esa cifra?

5:48

Es complicado, porque las cifras son astronómicas.

5:52

Los parámetros son, en esencia, las conexiones ajustables dentro de esa red neuronal.

5:57

Son como las sinapsis en un cerebro, las que le permiten aprender patrones.

6:01

Vale.

6:02

405 mil millones de parámetros lo colocan directamente en la liga de los modelos más grandes y potentes que existen en el mundo.

6:10

O sea, al nivel de los grandes conocidos.

6:13

Sí. Modelos como GPT-4 de OpenAI.

6:16

Aunque sus cifras exactas no son públicas, se estima que se mueven en ese orden de magnitud.

6:21

Tener tantos parámetros le da una capacidad teórica inmensa para capturar matices y relaciones complejas, ya sea en un soneto, en un balance financiero o en el código fuente de un sistema operativo.

6:32

Una capacidad de aprendizaje descomunal.

6:34

Y junto a esa cifra mencionan otra que es igual de impactante.

6:39

Una ventana de contexto de hasta 128.000 tokens.

6:43

Y esto es clave para la usabilidad del modelo.

6:45

¿Qué es la ventana de contexto?

6:46

La ventana de contexto es, en esencia, la memoria a corto plazo del modelo durante una tarea.

6:50

¿Su memoria de trabajo?

6:52

Exacto. 128.000 tokens es una barbaridad.

6:56

Un token es más o menos tres cuartas partes de una palabra.

7:00

Esto significa que el modelo puede procesar y recordar el equivalente a un libro de unas 250 o 300 páginas en una sola interacción.

7:08

Un libro entero.

7:10

Pero, ¿tiene esto un coste oculto?

7:12

¿Se vuelve más lento o más caro de usar?

7:16

¿Con una memoria tan grande?

7:18

¿O incluso hay riesgo de que se confunda con tanta información?

7:21

Esa es la pregunta del millón.

7:23

Y la respuesta es sí a todo.

7:25

En cierto modo, hay un trade-off.

7:27

Claro, siempre lo hay.

7:29

Una ventana de contexto más grande consume más recursos computacionales.

7:33

Lo que se traduce en que cada interacción puede ser más lenta y más cara.

7:36

Lógico.

7:37

Y sí, existe el riesgo de lo que se llama perderse en el medio.

7:41

Cuando el contexto es tan largo, a veces los modelos tienden a prestar más atención a la información del modelo.

7:44

A veces los modelos tienden a prestar más atención a la información del modelo.

7:45

A veces los modelos tienden a prestar más atención a la información del principio y del final,

7:47

olvidando detalles cruciales que están en el centro.

7:50

¡Ah, mira!

7:50

Sin embargo, el paper sugiere que han trabajado mucho en mitigar estos problemas.

7:55

Y las ventajas son enormes.

7:57

Poder analizar un contrato legal de 200 páginas,

8:00

leer la documentación completa de una API para programar sobre ella.

8:04

O mantener una conversación muy larga sin que se le olviden las cosas.

8:08

Justo.

8:09

Abre la puerta a tareas que antes eran impensables.

8:11

Vale, el modelo es enorme, tiene una memoria prodigiosa,

8:14

pero con sus costumbres.

8:16

Ahora, la gran pregunta.

8:18

¿Cómo rinde?

8:19

El paper hace una afirmación muy directa.

8:22

Cito.

8:23

Llama 3 ofrece una calidad comparable a la de los principales modelos de lenguaje,

8:28

como GPT-4, en una gran cantidad de tareas.

8:32

Esta es una declaración muy fuerte.

8:34

Es una declaración de intenciones potentísima.

8:36

Es plantar una bandera en la cima de la montaña.

8:39

Pero esa es una afirmación que hacen ellos en su propio paper.

8:42

¿Tenemos benchmarks independientes que lo confirmen?

8:45

Porque en este campo, todos tienden a decir que su modelo es el mejor

8:49

en las métricas que ellos mismos eligen para publicar.

8:52

Tienes toda la razón en ser escéptica.

8:54

Es la actitud correcta.

8:56

Es cierto que cada laboratorio tiende a publicar los benchmarks

8:59

donde su modelo brilla más.

9:01

Claro.

9:02

Sin embargo, la afirmación es significativa por dos motivos.

9:05

Primero, porque se atreven a hacer la comparación directa

9:08

con el que ha sido el rey indiscutible, GPT-4.

9:11

Y segundo, y esto es lo más importante,

9:15

el modelo están invitando al mundo entero a que verifique esa afirmación.

9:19

Ah, es verdad.

9:21

Ya no es una caja negra.

9:22

Cualquiera puede descargarlo y ponerlo a prueba en sus propias tareas,

9:26

en benchmarks públicos como el LMS Chatbot Arena,

9:29

donde usuarios reales votan a ciegas por la mejor respuesta.

9:33

La verdadera prueba de fuego empieza ahora, en manos de la comunidad.

9:37

Y eso nos lleva al verdadero meollo del asunto.

9:40

Afirman que compiten con GPT-4, que es un sistema cerrado.

9:44

Pero supuestamente,

9:45

su gran movimiento es justamente el contrario, la liberación pública.

9:50

Exacto.

9:51

¿Qué sentido tiene hacer esa comparación

9:53

si luego no vas a competir en el mismo terreno?

9:56

¿Cuál es el movimiento estratégico aquí?

9:59

Es que la estrategia no es competir en el mismo terreno,

10:01

sino cambiar las reglas del juego por completo.

10:04

A ver.

10:04

La decisión de liberar un modelo de 405B parámetros

10:08

con un rendimiento que aspira a ser da élite,

10:10

es un terremoto para el ecosistema.

10:12

Es la jugada más audaz que hemos visto en el debate de

10:15

código abierto contra código cerrado.

10:17

¿Por qué?

10:18

¿Qué cambia realmente para la industria?

10:20

Cambia el equilibrio de poder.

10:23

Si conectamos esto con el panorama general,

10:25

estamos viendo nacer la gran batalla de las plataformas de IA.

10:28

¿Vale?

10:29

Por un lado, tienes el modelo iOS de Apple,

10:32

que es el de Open Open AI con GPT-4.

10:35

Un jardín vallado, un ecosistema cerrado,

10:37

muy pulido, muy controlado,

10:40

donde accedes a través de su API.

10:41

Sí.

10:42

Por otro lado, tienes el modelo Android,

10:44

una plataforma abierta.

10:46

Eso es lo que Meta está intentando construir con Llama.

10:49

Al liberar un modelo tan potente,

10:52

están democratizando el acceso a la IA de vanguardia.

10:54

Pero, democratizar es una palabra que se usa mucho.

10:58

¿Qué significa en la práctica?

11:00

¿Y qué gana Meta con ello, si lo está regalando?

11:03

En la práctica, significa que una startup en Valencia,

11:06

un grupo de investigación en una universidad de Buenos Aires,

11:09

o un desarrollador independiente en su casa, pueden,

11:12

si tienen los recursos de computación,

11:14

descargar este motor de última generación,

11:16

estudiarlo, adaptarlo.

11:18

¿Y construir sobre él?

11:20

Exacto. Y construir sobre él.

11:22

Esto fomenta una ola de innovación

11:24

fuera del control de los gigantes tecnológicos.

11:26

Ya.

11:28

Y lo que Meta gana es estratégico.

11:30

Su negocio principal no es vender acceso a la IA,

11:32

es la publicidad.

11:34

Están aplicando una táctica clásica,

11:36

comoditizar el complemento.

11:38

Explica eso.

11:39

Si haces que los modelos de IA de alta gama,

11:41

con una comodity gratuita, debilitas a tus rivales,

11:43

cuyo principal negocio es vender acceso a esos modelos,

11:46

y fomentas que todo un ecosistema construya sobre tu tecnología,

11:49

lo que a la larga te beneficia.

11:51

Actura por defecto de la nueva era de la IA.

11:53

Justo. Una jugada maestra.

11:55

Una jugada maestra a nivel estratégico, entonces.

11:58

Y junto con este motor potentísimo,

12:00

el paper dice que también liberan algo llamado LamaWard 3

12:04

para la seguridad de entradas y salidas.

12:06

Sí.

12:07

Parece una especie de guardaespaldas digital.

12:09

Es una descripción móvil.

12:10

Es una descripción muy acertada.

12:12

LamaWard 3 es, casi con total seguridad,

12:14

un modelo más pequeño y especializado,

12:16

entrenado para una única misión,

12:18

la moderación de contenido.

12:20

Vale.

12:21

Analiza las peticiones que recibe el modelo principal

12:23

y las respuestas que genera,

12:25

para filtrar y prevenir contenido dañino, sesgado o inapropiado.

12:29

Y el hecho de que lo liberen junto al modelo principal.

12:31

Es un claro ejercicio de responsabilidad.

12:33

Te están dando la herramienta de poder y la de seguridad.

12:36

Pero, ¿este guardia es de uso obligatorio

12:39

o es opcional?

12:40

¿Qué pasa si alguien descarga el modelo

12:42

y decide simplemente no usarlo?

12:45

Es totalmente opcional.

12:47

Y ahí está el quid de la cuestión del código abierto.

12:50

Meta te da las herramientas para un uso seguro,

12:53

pero no puede obligarte a usarlas.

12:55

Claro.

12:56

Es como si al venderte un coche de Fórmula 1

12:58

te dieran también los mejores frenos y sistemas de control.

13:02

Te están diciendo,

13:03

aquí tienes algo increíblemente potente

13:06

y aquí tienes cómo usarlo de forma segura.

13:08

Pero en última instancia,

13:09

el conductor tiene el control.

13:11

Exacto.

13:12

Esta libertad es lo que hace tan potente al código abierto,

13:15

pero también lo que abre el debate sobre la responsabilidad final.

13:19

Un debate que seguro que seguirá.

13:21

Pero la ambición no se detiene en el texto.

13:23

El paper dedica una sección a mirar hacia el futuro,

13:26

y ese futuro es multimodal.

13:28

Sí.

13:29

Hablan de integrar capacidades de imagen,

13:31

vídeo y voz.

13:32

Sí, y es un vistazo muy revelador.

13:34

Mencionan que lo están haciendo a través de un

13:37

enfoque composicional.

13:39

¿Y eso qué significa?

13:41

Pues sugiere que en lugar de construir

13:43

un único modelo monolítico gigantesco que lo haga todo,

13:46

lo cual sería extremadamente complejo y caro,

13:49

probablemente estén conectando el poder de Llama 3,

13:53

como cerebro lingüístico,

13:55

con otros modelos especializados en visión o audio.

13:58

Ah, como si le conectaran diferentes sentidos al cerebro principal.

14:02

Es un enfoque mucho más modular, sí.

14:04

Y dicen que los resultados son competitivos,

14:06

pero apuntan un detalle crucial.

14:08

Estos modelos multimodales aún no se están liberando de forma generalizada

14:13

porque todavía están en desarrollo.

14:15

Y esa es una decisión muy prudente y significativa.

14:18

Esto plantea una pregunta importante.

14:20

¿Por qué ser tan audaces liberando el modelo de texto más grande,

14:23

pero tan cautos con los multimodales?

14:25

Entonces, ¿están admitiendo implícitamente que no tienen todavía un

14:29

Llama Word para imágenes y vídeo que sea lo bastante bueno

14:33

como para soltarlo al público?

14:35

Exactamente. Has dado en el clavo.

14:38

La multimodalidad añade capas de riesgo exponencialmente mayores.

14:43

Claro, no es lo mismo.

14:45

Ya no hablamos sólo de texto inapropiado.

14:47

Hablamos de la generación de deepfakes de vídeo y audio,

14:50

de desinformación visual a gran escala.

14:53

Moderar imágenes, vídeos y voces es un desafío técnico y ético

14:57

mucho más complejo que moderar texto.

14:59

Muchísimo más.

15:01

Su cautela aquí sugiere que están tomándose muy en serio esos riesgos,

15:04

y que prefieren esperar a tener soluciones de seguridad más robustas.

15:08

Tiene todo el sentido.

15:10

Entonces, ¿qué significa todo esto?

15:12

Si tuviéramos que resumir el impacto de este paper en tres ideas clave,

15:16

¿cuáles serían?

15:17

Yo diría que la primera es que Llama 3 no es un modelo.

15:20

Es una manada.

15:21

Una plataforma completa de herramientas fundacionales potentísimas.

15:25

Vale. Primera idea.

15:27

La segunda, que es un modelo estrella de 405 B parámetros,

15:31

no sólo es enorme,

15:33

sino que se postula para competir de tú a tú en la primera división

15:37

con los mejores modelos cerrados del mundo.

15:39

Y la tercera, y la más importante,

15:42

es que este poder no se queda encerrado en un laboratorio.

15:45

Está disponible para todos,

15:47

lo que supone un catalizador masivo para la innovación en el campo del código abierto.

15:51

Y además, ya nos dan una pista de lo que viene después.

15:55

Un futuro donde la IA no sólo leerá y escribirá,

15:58

sino que también verá, oirá y hablará.

16:01

Exacto.

16:02

En perspectiva global, este paper es un hito

16:04

para el movimiento de la inteligencia artificial de código abierto.

16:07

Sin duda.

16:08

Durante años ha existido el temor de que la IA más avanzada

16:11

quedara exclusivamente en manos de unas pocas corporaciones.

16:15

La liberación de Llama 3 es el contrapeso más fuerte y real

16:19

que hemos visto hasta ahora a esa tendencia.

16:22

Es un cambio de paradigma.

16:24

Potencialmente.

16:25

Puede acelerar la innovación a nivel mundial

16:27

al poner herramientas de élite en manos de una comunidad global de desarrolladores.

16:31

Es un antes y un después.

16:33

Me quedo pensando en algo.

16:35

El paper insiste mucho en la responsabilidad,

16:37

en dar herramientas como Llama Guard.

16:39

Pero al abrir la caja de Pandora

16:41

y entregar un motor tan potente a todo el mundo,

16:44

la responsabilidad se difumina.

16:47

Ya no estás sólo en el creador,

16:49

sino en miles de manos anónimas que pueden modificarlo.

16:52

La pregunta que queda en el aire es si,

16:54

como comunidad global, estamos preparados para manejar este poder.

16:58

Es la pregunta fundamental.

16:59

¿Superan los innegables beneficios del acceso abierto

17:03

a los riesgos potenciales que también se abren de par en par?

17:07

Es la pregunta fundamental de nuestra era

17:09

y no tiene una respuesta fácil, la verdad.

17:11

Mañana continuaremos nuestro viaje por la historia de la IA

17:15

con otro paper que, les aseguro, es fascinante

17:19

y cambió las reglas del juego en su momento.

17:21

No se lo pierdan.

17:22

Y hasta aquí el episodio de hoy.

17:35

Muchas gracias por tu atención.

17:47

Esto es BIMPRAXIS.

17:49

Nos escuchamos en el próximo episodio.