E027_KAN vs. MLP: Una nueva arquitectura de redes neuronales
Ep. 27

E027_KAN vs. MLP: Una nueva arquitectura de redes neuronales

Episode description

¿Y si los Multi-Layer Perceptrons (MLPs) que sustentan la mayor parte de la IA actual tuvieran una alternativa más eficiente? 🧠 En este episodio nos adentramos en el fascinante mundo de las Kolmogorov-Arnold Networks (KANs), una nueva arquitectura inspirada en el teorema de representación de Kolmogorov-Arnold que desafía el diseño clásico de las redes neuronales. A diferencia de los modelos tradicionales con funciones fijas en los nodos, las KANs trasladan la complejidad a las conexiones, utilizando funciones de activación aprendibles en los propios pesos. 📉 Analizamos cómo este cambio, aparentemente sencillo, permite que redes mucho más pequeñas superen a grandes MLPs en precisión y eficiencia. ✨ Más allá del rendimiento, las KANs abren la puerta a una interpretabilidad visual sin precedentes, rompiendo la opacidad de la “caja negra” del aprendizaje profundo. 🔍 Descubre cómo estas redes no solo ajustan datos, sino que actúan como colaboradores capaces de ayudar a los científicos a (re)descubrir leyes matemáticas y físicas. Si te interesa el futuro de las arquitecturas de IA, las nuevas leyes de escalado neuronal y cómo modelos más compactos pueden resolver problemas complejos, ¡dale al play ▶️ y acompáñanos en este viaje hacia la próxima generación del Deep Learning! 🚀

Paper original: KAN: Kolmogorov-Arnold Networks (arXiv)

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

0:28

¡Empezamos!

0:29

Y si el componente fundamental de la inteligencia artificial moderna, ese ladrillo, por así decirlo, con el que se construye casi todo,

0:45

tuviera una alternativa radicalmente distinta y quizás mucho más potente.

0:50

Es una pregunta potentísima, sí, y nos lleva directos al centro del análisis de hoy.

0:56

Porque a veces, para dar un salto adelante, hay que cuestionar los cimientos.

1:01

Y hoy vamos a hablar precisamente de eso.

1:03

Además, es que es una conversación que encaja a la perfección en la serie especial que estamos haciendo para BIMPRAXIS,

1:09

los papers que cambiaron la historia de la IA.

1:12

Totalmente. Buscamos justo eso.

1:13

Esos documentos que no solo mejoran lo que ya hay, sino que abren puertas a formas completamente nuevas de pensar.

1:20

Y el de hoy es un candidato perfecto, vamos. Es casi una provocación al statu quo del deep learning.

1:27

Totalmente.

1:28

Hoy nos vamos a sumergir en un artículo muy, muy reciente que está generando un debate enorme.

1:34

Se titula CAN, Colmogoros Arnold Networks.

1:39

Está liderado por Ziming Liu y su equipo.

1:42

Y la primera versión es del 30 de abril de 2024. O sea, que está recién salido del horno.

1:48

Así es. Y nuestra misión hoy es desentrañar qué son exactamente estas redes CAN.

1:54

¿Por qué se proponen como una alternativa a los omnipresentes perceptrones multicapa, a los MLPs?

2:00

Claro.

2:00

Y sobre todo, ¿qué implicaciones podría tener este cambio de paradigma para el futuro del deep learning?

2:05

Vale, vamos a desgranar esto.

2:07

Para entender por qué es tan rompedor, quizá tengamos que recordar un poco cómo funcionan las redes.

2:12

El modelo actual se llama perceptrón multicapa, o MLP.

2:18

Es el caballo de batalla de la IA actual.

2:21

Casi todo lo que conocemos, desde los modelos que reconocen imágenes hasta los grandes modelos de lenguaje, tiene MLPs en su núcleo.

2:29

La analogía que siempre se usa, y a mí me parece muy buena, es la de las piezas de Lego.

2:34

Sí.

2:35

Los MLPs construyen a inteligencia apilando miles o millones de piezas muy simples.

2:42

Cada pieza, cada neurona, tiene una función fija, predeterminada, que llamamos función de activación.

2:49

Eso es.

2:50

Siempre hace lo mismo.

2:51

Es como un interruptor que se enciende o se apaga a partir de cierto punto.

2:55

La complejidad, la inteligencia del modelo, surge de la inmensa cantidad de estas piezas simples y de cómo se organizan en capas.

3:02

La clave entonces, y esto el abstract del paper lo deja clarísimo, es que en los MLPs esas funciones en las neuronas son fijas.

3:10

Se elige una, como la famosa...

3:12

La famosa RELU, y se usa en toda la capa.

3:15

Y este ha sido el dogma durante décadas.

3:17

Y funciona, ¿eh? No hay duda de que funciona.

3:20

El problema es que este diseño tiene limitaciones importantes.

3:25

Una es la eficiencia.

3:27

A menudo se necesitan redes gigantescas con miles de millones de parámetros para resolver problemas complejos.

3:34

Y la otra, que es la que frustra en el día a día, la interpretabilidad.

3:40

¿Totalmente?

3:41

¿Totalmente?

3:41

Es que es una frustración que cualquiera que trabaje con estos modelos conoce.

3:46

Te pasas semanas entrenando algo, funciona de maravilla, y luego te preguntan, ¿por qué dio esa respuesta?

3:53

Y te tienes que encoger de hombros y decir, pues, porque las matemáticas funcionan.

3:58

Exacto. Se convierte en la famosa caja negra.

4:01

Sí.

4:02

Sabemos que funciona, pero no entendemos cómo toma sus decisiones, qué razonamiento interno sigue.

4:07

Y esa opacidad es un problema enorme en campos críticos.

4:11

Como la medicina o las finanzas, donde necesitas poder entender las decisiones de la máquina.

4:16

Vale. Entonces tenemos un sistema que funciona, pero es masivo, caro de entrenar y opaco.

4:23

Y si el problema es que no vemos lo que pasa dentro de los nodos.

4:27

La solución que proponen estos autores es hacer que los nodos sean casi irrelevantes y que toda la magia ocurra en los cables que los unen.

4:37

Has dado en el clavo.

4:39

Es que es un cambio de perspectiva total.

4:41

Es un cambio de perspectiva total.

4:41

El paper de las Kahn's plantea una idea radical.

4:45

Y si en lugar de tener la inteligencia dentro de los nodos, la pusiéramos en las conexiones.

4:50

¿Y esta idea de dónde sale?

4:53

¿Es algo completamente nuevo o se basa en algo que ya existía?

4:56

No surge de la nada. Y eso es lo fascinante.

4:59

Los autores se inspiran en un principio matemático bastante profundo.

5:03

El teorema de representación de Kolmogorov-Arnold.

5:06

Ah, vale.

5:07

Sin entrar en la matemática pura y dura, que es muy compleja,

5:11

lo que este teorema sugiere es que cualquier función continua, por enrevesada que sea,

5:16

se puede representar como una suma y composición de funciones más simples.

5:20

Las Kahn's son en esencia un intento de llevar esta idea a la práctica en una red neuronal.

5:26

O sea que la base teórica lleva ahí bastante tiempo,

5:28

pero ellos han encontrado la forma de convertirla en una arquitectura que funciona.

5:32

Precisamente.

5:33

La diferencia fundamental, y el artículo lo explica de forma cristalina, es esta.

5:38

Mientras los MLPs tienen funciones,

5:40

de activación fijas y simples, en los nodos,

5:43

las Kahn's tienen funciones de activación aprendibles y complejas en las aristas.

5:48

Espera, espera. Esto es importante.

5:51

En un MLP normal, el peso es solo un número, ¿no?

5:54

Un multiplicador que dice si la conexión es más fuerte o más débil.

5:58

Correcto. Un simple número.

6:00

La transformación de la señal ocurre después, en el nodo de destino.

6:04

En una Kahn, la propia conexión ya no es un número.

6:08

La conexión es una función matemática que aprende y se aprende,

6:10

se adapta durante el entrenamiento.

6:13

Y de repente lees una frase en el abstract que te rompe los esquemas.

6:16

Dicen, literalmente, las Kahn's no tienen pesos lineales en absoluto.

6:21

Y te quedas pensando, ¿cómo que no?

6:24

O sea, ¿han quitado el componente más básico de una red neuronal?

6:28

Es una declaración potentísima.

6:30

Significa que cada conexión no es solo un potenciómetro que sube o baja una señal,

6:34

sino que es un pequeño procesador en sí mismo.

6:37

Concretamente, lo que usan es una función llamada spline.

6:40

¿Vale? Has dicho la palabra técnica.

6:43

¿Qué es una spline, en términos que podamos entender todos?

6:47

A ver, piensa en una de esas reglas de dibujo flexibles que se usaban antes.

6:51

Una spline no es más que una serie de pequeños trozos de curvas sencillas,

6:55

unidas de forma suave.

6:57

¡Ajá!

6:57

La idea es que puedes doblar y torcer esa regla

7:00

para que se ajuste a cualquier contorno que quieras.

7:03

Pues, en una Kahn, cada conexión es una de esas reglas flexibles.

7:07

La red aprende a doblar cada una de estas splines

7:10

hasta que su forma representa a la perfección

7:12

la relación matemática entre las dos neuronas que conecta.

7:16

La analogía de los cables que usábamos antes ahora cobra todo el sentido.

7:20

Un MLP tiene cables rígidos que solo transmiten una señal con más o menos fuerza.

7:25

Mmm.

7:27

Y una Kahn tiene cables flexibles y programables

7:30

que no solo transmiten la señal,

7:32

sino que la transforman de maneras complejas mientras viaja de un punto a otro.

7:36

Exacto.

7:37

La inteligencia, la complejidad,

7:39

se ha desplazado de los nodos a las conexiones.

7:42

Los nodos en una Kahn son increíblemente simples.

7:45

A menudo solo suman las señales que les llegan.

7:48

Toda la carga del aprendizaje recae en esas splines de las conexiones.

7:52

Vale, si mueves la inteligencia, las conexiones y las haces tan flexibles,

7:56

la intuición me dice que eso tiene que tener dos efectos enormes.

8:00

Primero, que necesitas menos piezas, porque cada pieza es mucho más potente.

8:05

Eso es.

8:06

Y segundo, que puedes mirar dentro de esa conexión,

8:07

Eso es. Y segundo, que puedes mirar dentro de esa conexión,

8:08

ver la forma que ha aprendido y entender qué está haciendo.

8:13

¿Es eso lo que prometen?

8:14

Has descrito perfectamente las dos grandes promesas del paper.

8:18

La primera es la precisión y la eficiencia.

8:21

Citan directamente que Kahn's mucho más pequeñas

8:25

pueden lograr una precisión comparable o mejor que MLPs mucho más grandes.

8:30

Esto es importantísimo.

8:31

Si se confirma a gran escala,

8:33

significaría que podríamos obtener los mismos o mejores resultados

8:37

con modelos que requieren muchísimos menos recursos.

8:40

Menos coste, menos consumo energético.

8:43

Y va más allá.

8:44

El paper también habla de leyes de escalado neuronal más rápidas.

8:48

Espera un momento, eso es clave.

8:50

Porque el gran problema de los modelos gigantes

8:53

es que llega a un punto de rendimientos decrecientes.

8:55

Tienes que duplicar el tamaño del modelo para obtener una mejora mínima.

8:59

Sugieren que las Kahn's rompen con eso.

9:02

Esa es la teoría que proponen, ¿sí?

9:04

Que si a un MLT y a una Kahn's les das

9:07

un doble de datos, la Kahn, en teoría,

9:10

aprenderá más y mejorará su rendimiento de forma más acelerada.

9:14

Es una cuestión de eficiencia en el aprendizaje.

9:17

Vale, esa es la primera gran ventaja.

9:19

Más con menos.

9:21

Pero para mí la verdadera bomba es la segunda.

9:23

La interpretabilidad.

9:25

El paper afirma que las Kahn's pueden visualizarse intuitivamente.

9:30

Si cada conexión es una función visible,

9:32

significa que podríamos literalmente ver cómo una red ha aprendido el concepto de

9:37

Kahn's.

9:38

Es exactamente ese nivel.

9:40

Y lo fascinante es que no se quedan en la teoría, muestran una aplicación práctica

9:45

para demostrarlo.

9:47

Cuentan en el abstract que usaron Kahn's como colaboradoras para que científicos,

9:51

tanto matemáticos como físicos, pudieran redescubrir leyes fundamentales de la naturaleza.

9:56

O sea, no es sólo que podamos ver lo que hace la red, sino que lo que vemos tiene

10:01

sentido científico.

10:02

Ida entre la salinidad y la temperatura a cierta profundidad.

10:05

Increíble.

10:06

La Kahn's.

10:07

No sólo predijo, sino que le dio una nueva pista sobre la física del océano.

10:12

Es un salto cualitativo enorme.

10:14

Es pasar de una herramienta de predicción opaca a una herramienta de descubrimiento

10:18

científico.

10:19

Pensemos en la medicina.

10:21

Un MLP te puede dar un diagnóstico con un 99% de acierto, pero ningún médico lo usaría

10:26

porque es una caja negra.

10:28

Con una Kahn's podrías visualizar las funciones y descubrir que una conexión ha modelado

10:33

una curva que relaciona tres biomarcadores de una forma que nadie había descrito.

10:37

No sólo tienes un diagnóstico, tienes una nueva hipótesis para investigar la causa

10:41

de la enfermedad.

10:42

Todo esto suena casi demasiado bueno para ser verdad.

10:46

Pero seamos escépticos un segundo.

10:48

¿Cuál es la trampa?

10:50

Entrenar una función completa en cada conexión en lugar de un simple número debe tener

10:54

un coste computacional brutal, ¿no?

10:57

Esa es la pregunta del millón.

10:59

Y el paper es honesto al respecto.

11:01

Si bien el modelo final es más eficiente, el proceso de entrenamiento puede ser más

11:06

exigente.

11:07

Otimizar millones de curvas flexibles es un desafío.

11:10

Claro, puede ser más lento.

11:13

Es un área de investigación muy activa ahora mismo, cómo hacer este entrenamiento tan

11:17

eficiente como el de los MLPs.

11:21

Es un trade-off.

11:22

Y tengo otra duda.

11:25

Con tanta flexibilidad en cada conexión, ¿no corren el riesgo de memorizar los datos

11:30

de entrenamiento en lugar de aprender patrones generales?

11:34

El sobreajuste, el famoso overfitting, me parece un peligro.

11:37

Es un riesgo muy real.

11:40

Los autores lo saben, y proponen técnicas de regularización específicas que básicamente

11:45

penalizan a las splines que se vuelven demasiado complejas o ruidosas.

11:49

Es como decirle a la red, intenta encontrar la curva más simple posible que explique

11:53

los datos.

11:54

Pero, sin duda, calibrar esto será uno de los grandes retos.

11:57

Entonces, si intentamos resumir el cambio fundamental, es pasar de una arquitectura

12:03

donde la complejidad reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad

12:04

reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside

12:05

en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside en apilar

12:06

verticalmente nodos altos.

12:07

Y desde una arquitectura donde la complejidad reside en apilar verticalmente nodos altos,

12:08

a una architectura donde la complejidad reside en apilar verticalmente nodos altos, o sea,

12:09

de un código de datos más o menos simples, a una donde la complejidad está en las propias

12:12

conexiones, que son inteligentes, flexibles y sobre todo interpretables.

12:17

Si conectamos esto con el panorama general, el artículo posiciona a las CANs como alternativas

12:22

prometedoras a los MLPs y hay que recalcar la importancia de esa frase.

12:28

Los MLPs no son una parte más de la IA, son el cimiento de casi todo.

12:32

Claro.

12:33

Desde la visión por computador, hasta los gigantescos LLMs, todos

12:37

dependen de los MLPs. Por lo tanto, si las CANS demuestran ser una alternativa viable, no estaríamos

12:44

hablando de una mejora incremental, estaríamos hablando de un posible cambio de los cimientos

12:50

de todo el edificio. Es una analogía muy buena y el artículo no lo presenta como un producto final,

12:57

sino como una nueva vía de investigación. La conclusión es muy clara, las CANS abren

13:02

oportunidades para seguir mejorando los modelos de Deep Learning actuales. Lo que nos han dado es

13:08

un nuevo tipo de ladrillo y ahora la comunidad tiene que ver qué se puede construir con él.

13:14

Así que, para recapitular los puntos clave, las CANS proponen una arquitectura novedosa,

13:20

inspirada en un teorema matemático de hace décadas. Mueven el aprendizaje de los nodos

13:25

a las conexiones, usando funciones flexibles en lugar de simples pesos.

13:30

Y las grandes promesas son dos.

13:32

Una mayor precisión con modelos mucho más pequeños. Y, quizás, lo más revolucionario,

13:38

una interpretabilidad, que podría convertir a las redes neuronales en colaboradoras para

13:43

el descubrimiento científico. Exacto.

13:46

Un cambio de paradigma que ataca de raíz dos de los mayores problemas del Deep Learning actual,

13:51

el tamaño y la opacidad. Y esto me lleva a la reflexión final.

13:55

Has mencionado que la base de todo esto es un teorema matemático que tiene décadas de antigüedad.

14:00

Así es. El teorema de Kolmomoroff-Arnold,

14:02

en el que se basan estas redes, existe desde la década de 1950. La base matemática ha estado ahí,

14:09

esperando en un cajón, durante más de 70 años. Increíble.

14:13

Esto nos obliga a preguntarnos qué otras ideas antiguas, qué otros teoremas olvidados en viejos

14:19

libros de texto, podrían estar esperando simplemente las herramientas computacionales

14:23

adecuadas para revolucionar la inteligencia artificial del mañana.

14:27

Es una idea fascinante. La próxima gran revolución podría no venir de una idea

14:32

completamente nueva.

14:32

Sino de una vieja idea vista con nuevos ojos. Y con esa reflexión cerramos nuestro análisis de hoy.

14:39

Un placer como siempre.

14:42

Pero nuestro viaje por los artículos que definen la inteligencia artificial no ha hecho más que empezar.

14:48

Mañana analizaremos otro paper que marcó un antes y un después en este campo.

14:52

Una exploración fascinante que no se pueden perder.

15:06

Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

15:12

Esto es...

15:20

BIMPRAXIS. Nos escuchamos en el próximo episodio.