Buenas, esto es BIMPRAXIS, el podcast donde el
BIM se encuentra con la inteligencia artificial.
Exploramos la ciencia, la tecnología y el futuro
desde el enfoque de la arquitectura, ingeniería y
construcción.
¡Empezamos!
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio
de BIMPRAXIS.
Hoy os traemos el asombroso mundo de Qentres
TTS, la inteligencia artificial de código abierto que
clona voces en tres segundos.
Y bueno, arrancamos con una idea que es
una locura, porque imaginar la situación de enviar
un audio documentando un proyecto del trabajo, con
vuestras dudas, esas pausas típicas para respirar, vuestro
tono normal, y que de repente la voz
que se reproduce al otro lado habla en
un japonés perfecto, un idioma chino, que igual
no habéis estudiado en la vida.
Es que es brutal, sí.
Esa es la barrera que acaba de saltar
por los aires hoy.
Nos vamos a sumergir de lleno en el
análisis técnico que ha publicado el canal de
YouTube Carlos Alarcón, guión ahí, que ha puesto
a prueba esta nueva familia de modelos de
síntesis de voz de Alibaba.
Eso es.
Y la misión aquí es, digamos, diseccionar un
poco cómo un sistema que es de código
abierto, accesible y, ojo, totalmente gratuito, está logrando
unos resultados que cuestionan directamente el monólogo.
El monopolio de las grandes empresas, las de
código cerrado.
Totalmente.
Porque, a ver, el punto de partida que
plantea Carlos en el vídeo no es una
simple mejora de que el audio suene un
poquito más limpio, ¿no?
Que va, que va.
El verdadero salto arquitectónico aquí es que el
modelo extrae y aísla lo que podríamos llamar
la huella dactilar acústica de una persona.
Y lo hace con una muestra ridícula.
Ya, de apenas unos segundos, ¿verdad?
Exacto, de tres a diez segundos.
Y con eso lo extrapola a cualquier otro
idioma o contexto.
Manteniendo una latencia de respuesta de sólo 97
milisegundos.
O sea, estas cifras desafían los límites físicos
que teníamos asumidos en este campo.
Es que 97 milisegundos es prácticamente tiempo real.
Vamos a desgranar cómo se sostiene esto, porque
este salto requiere cambios estructurales gordísimos.
Claro, cambia todo el motor por dentro.
Pero antes de entrar en los diagramas de
flujo y en cómo evitan los cuellos de
botella clásicos, me interesa muchísimo el entorno de
pruebas que usa Carlos.
Porque, claro, te hablan de inteligencia artificial avanzada
y te imaginas un clúster de servidores de
la NASA.
Ya, la típica granja de servidores inmensa.
Pues no, él ejecuta todo esto usando un
simple Google Colab con una tarjeta gráfica T4.
Que eso está al alcance de cualquier desarrollador
desde su casa.
Exactamente.
Y bueno, fíjate que menciona que trabaja con
dos variantes del modelo.
Una más pesada, de 1 .7 billones de
parámetros, y otra bastante más ligera, de 0
.6 billones.
Y entiendo que ese desdoblamiento tiene una razón.
No, no, es una decisión de disería inteligentísima
de Alibaba.
El modelo de 1 .7 billones está pensado
para cuando necesitas una calidad hiperrealista.
O sea, prioridad absoluta a la naturalidad de
la voz, el timbre, que entienda bien el
contexto del texto.
¿Y el pequeño?
Pues la versión de 0 .6 billones está
recortada para priorizar la velocidad pura y dura.
Está pensada para dispositivos con poca potencia o
el llamado Edge Computing.
Sacrificas un pelín de perfección en la entonación,
pero ganas una fluidez de conversación total.
Claro, compensas tamaño por rapidez según lo que
necesites.
Y esto se ve clarísimo en lo que
el sistema llama Voice Design, el diseño de
voces desde cero.
Porque, a ver, el sistema tiene ya nueve
voces preestablecidas, con nombres como Shouji o Dilan,
y soporta hasta diez idiomas.
Sí, sí, pero la magia de verdad está
en crear tú la voz.
Eso es, usando simplemente lenguaje natural en inglés
para crear a un humano que no existe.
En el análisis, Carlos le pide al modelo,
literalmente escribiendo un prompt, la voz de un
hombre de mediana edad, con voz grave, resonante,
como si fuera un locutor de publicidad.
Y el resultado tiene esa reverberación en el
pecho inconfundible de los anunciantes, ¿verdad?
Total.
Pero lo que me dejó de piedra, de
verdad te lo digo, no es que cambie
el tono.
Es el experimento que hace luego con las
limitaciones fisiológicas.
Ah, el ejemplo de la profesora de yoga.
Es una pasada.
Madre mía.
Es que Carlos cambia las limitaciones fisiológicas.
Le pide unas instrucciones y le pide una
voz de mujer, de entre 30 y 40
años, serena, paciente, vamos, una profesora de yoga
en toda regla.
Y al escuchar el audio, no es que
simplemente hable más despacio o suene más aguda.
No, no, es que recrea el cuerpo.
Exacto.
Mete de forma súper orgánica el control rítmico
de la respiración.
Las pausas no son silencios digitales, vacíos.
Se escucha como respira pacientemente.
El modelo entiende el concepto semántico de paz
o paciencia y lo traduce a los pulmones.
Fíjate lo que revela eso sobre cómo funciona
el modelo grande por dentro.
En los sistemas antiguos, el texto iba por
un lado y el sonido por otro.
Aquí, al haber procesado tantos datos, conceptos abstractos
como meditación se asocian matemáticamente con exhalaciones lentas.
Es como si simulara la anatomía de la
persona, no solo el sonido que hace.
Totalmente.
Pasa igual con el ejemplo del líquido.
El niño, ¿te acuerdas?
¡Ay, sí!
El niño hiperactivo.
Carlos le pide un niño de 8 o
10 años súper animado.
Y el modelo le mete unos picos de
emoción, unos quiebres en la voz loquísimos.
Imita perfectamente esa falta de control en las
cuerdas vocales que tiene un crío cuando está
eufórico.
¡Qué barbaridad!
¿Y si esto lo hace generando voces de
la nada?
¿Lo del voice cloning, la clonación de voz
directa?
¿Ya es brujería pura?
Carlos sube un audio suyo de 7 segundos
diciendo un simple Hola, esto es una prueba.
7 segundos.
7 segundos.
Es que es nada.
Nada.
Y en 14 segundos de procesado, le clona
la voz en español.
Pero el desafío de verdad es cuando le
mete un texto en inglés.
Claro, porque le clona la identidad acústica, no
el idioma.
El modelo genera el discurso en inglés clavando
la textura vocal de Carlos.
Y eso, que no le ha dado ni
media palabra de referencia en inglés.
¿Y cómo es posible que mantenga tu timbre
de voz si no te ha escuchado nunca
hablar en ese idioma?
Porque usa una técnica que se llama representación
desenredada.
¿Por qué?
O sea, que no le ha dado ni
media palabra de referencia en inglés.
El modelo coge el audio original y lo
separa en dos cajones, por decirlo de alguna
manera.
Por un lado, guarda tu identidad física, el
tamaño de tu laringe, tu caja de resonancia.
Vale.
Y por otro lado, guarda las reglas de
pronunciación del idioma.
Al separar esa identidad física, puede inyectar tu
voz en el motor lingüístico del inglés o
de cualquiera de los 10 idiomas que tiene.
Pero a ver, espera, espera, que aquí me
surge una duda técnica bastante gorda.
Si consigues traer esa acústica con tanta precisión
y llevarla a la escuela, ¿qué te va
a dar?
Si consigues llevarla a otro idioma sin sonar
a robot barato, ¿cómo resuelven la compresión?
Buena pregunta.
Porque, históricamente, para que una IA procese audio
rápido, tiene que comprimir muchísimo la onda de
sonido.
Y ahí te cargas los detalles, te cargas
las micro risas, la acústica de la habitación,
el ruidillo de fondo.
¿Cómo lo hace Alibaba para no cargarse todo
eso?
Pues mira, la respuesta es el corazón del
sistema, que es una locura de ingeniería.
Se llama Tukinacer 3TT y funciona a una
frecuencia, a una frecuencia rarísima, de sólo 12
hercios.
Usa una arquitectura que llaman multicoodbook, o sea,
de múltiples libros de códigos.
Detengámonos un segundo en los 12 hercios, porque
a mí me explotó la cabeza con esto.
Trabajar a 12 hercios parece un desastre total
para la calidad.
En audio digital normal hablamos de 44 .100
hercios para capturar el sonido bien, ¿no?
Claro, pero ¿es que esto no es audio
digital normal?
Ah, vale.
No son ondas acústicas, son tokens neuronales.
A ver.
Sistemas antiguos intentaban aplastar el audio en una
sola línea de datos.
Y claro, el modelo tenía que elegir, o
me guardo qué palabra estás diciendo, o me
guardo el suspiro que has hecho al final.
No le cabían las dos cosas, claro.
Exacto, o explotaba la memoria.
Entonces, el enfoque multicoodbook lo que hace es
usar varios canales de información a la vez,
como si estuvieran apilados.
O sea, en lugar de intentar meter todo
el mogollón en un solo tren que va
muy rápido, usan varios trenes más lentos, pero
que viajan en paralelo.
Esa es la analogía.
Perfecta.
En el primer tren, el primer codebook va
la palabra en sí.
En el segundo y tercero meten el tono
de tu voz y el volumen.
Y en los últimos meten los detalles finos.
La reverberación de tu cuarto, el ruidito de
los labios al abrirse.
¡Qué fuerte!
Al empaquetarlo todo en paralelo, logran meter un
segundo de audio en solo 12 pasos.
Esta velocidad tan baja de fotogramas es lo
que quita tanta carga de procesamiento, pero sin
perder nada del entorno original.
Vale.
Ahora lo entiendo.
Simplifican el tiempo, pero le meten muchísima profundidad
a cada fotograma.
Y encima los resultados que muestran los respaldan,
porque Carlos menciona que QN3 saca un 3
.21 en el Benchmark Libre Speech de banda
ancha.
Que eso, para que nos hagamos una idea,
es calidad de transmisión profesional.
Calidad de estudio total.
Y en cuanto a la similitud del hablante,
alcanza un 0 .95.
Es prácticamente un calco.
Sí, sí.
Con Servetus.
Dejes dialectales.
El ruido de fondo.
Todo.
Aunque, a ver, si te soy sincera, un
0 .95 suena estupendo en un PDF técnico,
pero nuestro oído es una máquina implacable para
el valle inquietante.
Enseguida notamos si algo suena a ella.
Ya, el famoso Ankeny Valley.
Claro.
Ese 0 .05 % que falta para la
perfección absoluta es ahí donde le pillamos los
fallos.
¿O de verdad en el día a día
no nos damos cuenta?
Pues es una objeción súper válida.
¿La verdad?
Ese margen minúsculo se nota sobre todo cuando
hay que hacer cambios súper bruscos, ¿sabes?
Un sarcasmo muy complejo o si pasas de
susurrar a gritar de golpe.
Ahí el modelo puede dudar una fracción de
segundo.
Claro.
Le cuesta pillar ese contexto tan humano.
Eso es.
Pero para el 99 % de cosas, leer
un texto o una conversación normal, ese 0
.05 % pasa totalmente desapercibido.
Y sobre todo gracias a cómo maneja el
ruido de fondo.
Al meter ese ruidillo, engaña a nuestro cerebro.
Para que perciba que es una grabación casera
real.
Y ese camuflaje acústico funciona también gracias a
la otra locura técnica del modelo.
La velocidad.
Para que charlemos de forma natural, la máquina
tiene que contestar a tiempo.
Las sillas de voz clásica siempre te hacen
esperar.
¿Cómo demonios consiguen esos 97 milisegundos de latencia?
Pues porque cambian totalmente el diseño.
Los sistemas tradicionales van en cascada.
Como una línea de montaje.
Primero tienes el modelo de lenguaje que lee
el texto y dice, vale, vamos a hacer
este audio.
Cuando acumula mucho texto, se lo pasa al
departamento 2, el modelo acústico.
Que suele ser de difusión.
Y los modelos de difusión son lentísimos purificando
el sonido, ¿no?
Lentísimos.
Tienen que hacer muchas pasadas para limpiar el
ruido.
Entonces, claro, el segundo departamento no puede hacer
nada hasta que el primero le pasa la
caja.
Es un cuello de botella terrible.
Ya veo.
Pues lo que hace Quen3r3 es cargarse esa
línea de montaje secuencial.
Usa una arquitectura dual track.
Empieza a procesar el texto.
El texto y el audio en paralelo, todo
a la vez, de principio a fin.
O sea, espera.
¿Me estás diciendo que no necesita leerse toda
la frase para saber cómo tiene que entonar
la última palabra?
¿Empieza a hablar con solo ver la primera
letra?
Tal cual.
Carlos lo enseña en el análisis.
Si tú tecleas la H de hola, la
IA ya está fabricando el sonido del ataque
de la consonante muda y preparando la forma
de la vocal O en su cavidad virtual.
Y todavía ni sabes si vas a poner
una exclamación al final.
Madre mía.
Es que eso es exactamente lo que hace
nuestro cerebro cuando empezamos a hablar.
Improvisamos la entonación sobre la marcha.
Y claro, por eso logran que desde que
escribes hasta que escuchas el primer paquete de
audio pasen solo esos 97 milisegundos.
Y 97 milisegundos lo cambia todo.
Totalmente.
En diseño sabemos que por debajo de los
100 milisegundos el cerebro lo siente como instantáneo.
Se acabó esa pausa incómoda de dos o
tres segundos que tenemos con los asistentes de
voz del móvil hoy en día.
Y si juntas esto con que es de
código abierto, tienes delante un cambio de paradigma
brutal en la industria.
Las soluciones open source le están pasando por
la derecha a los modelos cerrados, que además
te cobran un pastizal.
Es que el impacto para los creadores de
contenido va a ser bestial.
Imagínate, hasta hace nada doblar tu canal de
YouTube a diez idiomas era un lujo.
Contratar actores, estudios, sincronizar los labios, miles de
euros.
Intocable para el 99 por ciento de la
gente.
Vamos, claro.
Ahora, con una buena gráfica en casa o
alquilada en la nube.
Tienes tu voz, mantienes tus pausas y sacas
el vídeo en diez idiomas diferentes gratis.
Es de locos.
Y para los desarrolladores de software ni te
cuento.
Antes dependías de APIs de pago.
Cada vez que tu personaje de videojuego o
tu asistente virtual abría la boca, te estaban
cobrando por carácter procesado y encima tenías límites
de uso.
Los dichosos rate limits.
Ya te digo, veías volar el presupuesto.
Pues ahora te alojas el modelo en tu
servidor y te da igual procesar 100 horas
que un millón.
Coste es el mismo lo que te cueste
la luz de ese ordenador.
A ver, haciendo un poco de abogada del
diablo, mover un modelo de 1 .7 billones
en local pide un hardware que tampoco regalan.
¿Tú crees que a corto plazo los desarrolladores
pequeños van a poder integrar esto o va
a ser solo para los que ya tienen
dinero y buenos servidores?
Es un reto físico real, desde luego.
La gráfica hace falta, pero para eso está
el modelo pequeño de 0 .6 billones.
Y ojo, lo más importante.
La comunidad de código abierto es un enjambre
de investigadores.
Carlos hace una predicción en su vídeo y
le da un plazo de seis meses.
¿Seis meses para qué?
Para que veamos una explosión de apps usando
esto.
Porque ahora mismo hay gente en todo el
mundo reduciendo los requisitos técnicos del modelo, lo
que llaman cuantización, bajando los pesos para que
puedas correr esto en un portátil normal o
incluso en un teléfono móvil sin perder mucha
calidad.
Fíjate que seis meses en tecnología hoy en
día es una eternidad.
Vamos a ver.
¿Qué pasa si te vas a meter en
PCs, en videojuegos, generándote diálogos en tiempo real
con la voz súper realista en 97 milisegundos
o audiolibros leyéndose con la voz de tu
actor favorito al momento?
Y ahí, amiga mía, llegamos a la gran
reflexión final que deja todo este despliegue técnico.
Uy, a ver, cuenta.
Si este bicho es capaz de copiar tus
suspiros, tus dudas y hasta el ruido de
tu habitación con solo tres segundos de tu
voz.
Que tres segundos de voz es literalmente un
audio de WhatsApp diciendo oye, que llego tarde.
Eso es.
Con eso me puedes generar un audio hiperrealista
llorando o pidiendo dinero urgente con ruido de
sirenas de fondo desde un ordenador en tu
casa.
El concepto de prueba de vida digital se
ha acabado.
Ya no te puedes fiar del audio.
Es que hasta ahora desconfiabas de un SMS,
pero si escuchabas a tu madre angustiada, la
creías a ciegas.
Ahora la sociedad entera va a tener que
aprender a ser escéptica con cualquier nota de
voz.
Qué locura.
Es un cambio profundísimo en cómo nos relacionamos
con el sonido.
Arreglamos los problemas técnicos de la inteligencia artificial,
pero abrimos una brecha enorme en nuestra capacidad
para saber qué es real y qué no.
Antes de despedirnos hasta el próximo programa, os
informamos de que las voces que oyes han
sido generadas por la IA de Notebook LM
y que dirigiendo el podcast se encuentra Julio
Pablo Vázquez, un humano que te envía saludos.
En caso de error, probablemente sean errores humanos.
Nos escuchamos.
Y hasta aquí el episodio de hoy.
Muchas gracias por tu atención.
Esto es BIMpraxis.
Nos escuchamos en el próximo episodio.