E076_Qwen3 TTS Clona tu VOZ en 3 Segundos GRATIS
Ep. 76

E076_Qwen3 TTS Clona tu VOZ en 3 Segundos GRATIS

Episode description

Episodio de BIMPRAXIS: Qentres TTS y la Revolución en la Síntesis de Voz

La inteligencia artificial de código abierto Qentres TTS está revolucionando la síntesis de voz, permitiendo clonar voces en solo tres segundos y generar audio hiperrealista en varios idiomas. Con una latencia de respuesta de apenas 97 milisegundos, este modelo de síntesis de voz de Alibaba desafía los límites físicos en este campo. En este episodio, se explora el análisis técnico detrás de esta tecnología y su impacto potencial en la industria y la sociedad.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:42

Hoy os traemos el asombroso mundo de Qentres

0:46

TTS, la inteligencia artificial de código abierto que

0:50

clona voces en tres segundos.

0:52

Y bueno, arrancamos con una idea que es

0:54

una locura, porque imaginar la situación de enviar

0:57

un audio documentando un proyecto del trabajo, con

1:00

vuestras dudas, esas pausas típicas para respirar, vuestro

1:05

tono normal, y que de repente la voz

1:08

que se reproduce al otro lado habla en

1:10

un japonés perfecto, un idioma chino, que igual

1:12

no habéis estudiado en la vida.

1:14

Es que es brutal, sí.

1:15

Esa es la barrera que acaba de saltar

1:17

por los aires hoy.

1:18

Nos vamos a sumergir de lleno en el

1:20

análisis técnico que ha publicado el canal de

1:22

YouTube Carlos Alarcón, guión ahí, que ha puesto

1:25

a prueba esta nueva familia de modelos de

1:28

síntesis de voz de Alibaba.

1:29

Eso es.

1:30

Y la misión aquí es, digamos, diseccionar un

1:33

poco cómo un sistema que es de código

1:34

abierto, accesible y, ojo, totalmente gratuito, está logrando

1:39

unos resultados que cuestionan directamente el monólogo.

1:42

El monopolio de las grandes empresas, las de

1:44

código cerrado.

1:45

Totalmente.

1:46

Porque, a ver, el punto de partida que

1:47

plantea Carlos en el vídeo no es una

1:49

simple mejora de que el audio suene un

1:51

poquito más limpio, ¿no?

1:52

Que va, que va.

1:53

El verdadero salto arquitectónico aquí es que el

1:56

modelo extrae y aísla lo que podríamos llamar

1:59

la huella dactilar acústica de una persona.

2:02

Y lo hace con una muestra ridícula.

2:04

Ya, de apenas unos segundos, ¿verdad?

2:07

Exacto, de tres a diez segundos.

2:08

Y con eso lo extrapola a cualquier otro

2:10

idioma o contexto.

2:12

Manteniendo una latencia de respuesta de sólo 97

2:14

milisegundos.

2:15

O sea, estas cifras desafían los límites físicos

2:19

que teníamos asumidos en este campo.

2:21

Es que 97 milisegundos es prácticamente tiempo real.

2:24

Vamos a desgranar cómo se sostiene esto, porque

2:27

este salto requiere cambios estructurales gordísimos.

2:31

Claro, cambia todo el motor por dentro.

2:33

Pero antes de entrar en los diagramas de

2:35

flujo y en cómo evitan los cuellos de

2:37

botella clásicos, me interesa muchísimo el entorno de

2:40

pruebas que usa Carlos.

2:42

Porque, claro, te hablan de inteligencia artificial avanzada

2:45

y te imaginas un clúster de servidores de

2:47

la NASA.

2:48

Ya, la típica granja de servidores inmensa.

2:50

Pues no, él ejecuta todo esto usando un

2:53

simple Google Colab con una tarjeta gráfica T4.

2:56

Que eso está al alcance de cualquier desarrollador

2:58

desde su casa.

2:59

Exactamente.

3:00

Y bueno, fíjate que menciona que trabaja con

3:02

dos variantes del modelo.

3:04

Una más pesada, de 1 .7 billones de

3:06

parámetros, y otra bastante más ligera, de 0

3:08

.6 billones.

3:09

Y entiendo que ese desdoblamiento tiene una razón.

3:12

No, no, es una decisión de disería inteligentísima

3:17

de Alibaba.

3:18

El modelo de 1 .7 billones está pensado

3:21

para cuando necesitas una calidad hiperrealista.

3:24

O sea, prioridad absoluta a la naturalidad de

3:27

la voz, el timbre, que entienda bien el

3:29

contexto del texto.

3:30

¿Y el pequeño?

3:31

Pues la versión de 0 .6 billones está

3:34

recortada para priorizar la velocidad pura y dura.

3:37

Está pensada para dispositivos con poca potencia o

3:39

el llamado Edge Computing.

3:42

Sacrificas un pelín de perfección en la entonación,

3:44

pero ganas una fluidez de conversación total.

3:47

Claro, compensas tamaño por rapidez según lo que

3:50

necesites.

3:50

Y esto se ve clarísimo en lo que

3:52

el sistema llama Voice Design, el diseño de

3:55

voces desde cero.

3:56

Porque, a ver, el sistema tiene ya nueve

3:58

voces preestablecidas, con nombres como Shouji o Dilan,

4:01

y soporta hasta diez idiomas.

4:03

Sí, sí, pero la magia de verdad está

4:05

en crear tú la voz.

4:06

Eso es, usando simplemente lenguaje natural en inglés

4:10

para crear a un humano que no existe.

4:12

En el análisis, Carlos le pide al modelo,

4:15

literalmente escribiendo un prompt, la voz de un

4:18

hombre de mediana edad, con voz grave, resonante,

4:21

como si fuera un locutor de publicidad.

4:23

Y el resultado tiene esa reverberación en el

4:25

pecho inconfundible de los anunciantes, ¿verdad?

4:28

Total.

4:29

Pero lo que me dejó de piedra, de

4:31

verdad te lo digo, no es que cambie

4:32

el tono.

4:32

Es el experimento que hace luego con las

4:35

limitaciones fisiológicas.

4:36

Ah, el ejemplo de la profesora de yoga.

4:38

Es una pasada.

4:40

Madre mía.

4:41

Es que Carlos cambia las limitaciones fisiológicas.

4:42

Le pide unas instrucciones y le pide una

4:43

voz de mujer, de entre 30 y 40

4:45

años, serena, paciente, vamos, una profesora de yoga

4:49

en toda regla.

4:50

Y al escuchar el audio, no es que

4:51

simplemente hable más despacio o suene más aguda.

4:54

No, no, es que recrea el cuerpo.

4:57

Exacto.

4:58

Mete de forma súper orgánica el control rítmico

5:01

de la respiración.

5:02

Las pausas no son silencios digitales, vacíos.

5:06

Se escucha como respira pacientemente.

5:08

El modelo entiende el concepto semántico de paz

5:12

o paciencia y lo traduce a los pulmones.

5:15

Fíjate lo que revela eso sobre cómo funciona

5:17

el modelo grande por dentro.

5:19

En los sistemas antiguos, el texto iba por

5:22

un lado y el sonido por otro.

5:24

Aquí, al haber procesado tantos datos, conceptos abstractos

5:27

como meditación se asocian matemáticamente con exhalaciones lentas.

5:31

Es como si simulara la anatomía de la

5:33

persona, no solo el sonido que hace.

5:36

Totalmente.

5:36

Pasa igual con el ejemplo del líquido.

5:38

El niño, ¿te acuerdas?

5:39

¡Ay, sí!

5:40

El niño hiperactivo.

5:41

Carlos le pide un niño de 8 o

5:43

10 años súper animado.

5:44

Y el modelo le mete unos picos de

5:46

emoción, unos quiebres en la voz loquísimos.

5:49

Imita perfectamente esa falta de control en las

5:51

cuerdas vocales que tiene un crío cuando está

5:53

eufórico.

5:54

¡Qué barbaridad!

5:54

¿Y si esto lo hace generando voces de

5:56

la nada?

5:57

¿Lo del voice cloning, la clonación de voz

5:59

directa?

6:00

¿Ya es brujería pura?

6:01

Carlos sube un audio suyo de 7 segundos

6:04

diciendo un simple Hola, esto es una prueba.

6:07

7 segundos.

6:08

7 segundos.

6:08

Es que es nada.

6:08

Nada.

6:09

Y en 14 segundos de procesado, le clona

6:12

la voz en español.

6:13

Pero el desafío de verdad es cuando le

6:15

mete un texto en inglés.

6:16

Claro, porque le clona la identidad acústica, no

6:20

el idioma.

6:21

El modelo genera el discurso en inglés clavando

6:23

la textura vocal de Carlos.

6:25

Y eso, que no le ha dado ni

6:26

media palabra de referencia en inglés.

6:28

¿Y cómo es posible que mantenga tu timbre

6:30

de voz si no te ha escuchado nunca

6:32

hablar en ese idioma?

6:33

Porque usa una técnica que se llama representación

6:36

desenredada.

6:37

¿Por qué?

6:37

O sea, que no le ha dado ni

6:38

media palabra de referencia en inglés.

6:38

El modelo coge el audio original y lo

6:40

separa en dos cajones, por decirlo de alguna

6:42

manera.

6:42

Por un lado, guarda tu identidad física, el

6:45

tamaño de tu laringe, tu caja de resonancia.

6:48

Vale.

6:48

Y por otro lado, guarda las reglas de

6:50

pronunciación del idioma.

6:51

Al separar esa identidad física, puede inyectar tu

6:55

voz en el motor lingüístico del inglés o

6:57

de cualquiera de los 10 idiomas que tiene.

6:59

Pero a ver, espera, espera, que aquí me

7:01

surge una duda técnica bastante gorda.

7:03

Si consigues traer esa acústica con tanta precisión

7:07

y llevarla a la escuela, ¿qué te va

7:08

a dar?

7:08

Si consigues llevarla a otro idioma sin sonar

7:09

a robot barato, ¿cómo resuelven la compresión?

7:12

Buena pregunta.

7:13

Porque, históricamente, para que una IA procese audio

7:17

rápido, tiene que comprimir muchísimo la onda de

7:20

sonido.

7:20

Y ahí te cargas los detalles, te cargas

7:23

las micro risas, la acústica de la habitación,

7:26

el ruidillo de fondo.

7:28

¿Cómo lo hace Alibaba para no cargarse todo

7:30

eso?

7:30

Pues mira, la respuesta es el corazón del

7:32

sistema, que es una locura de ingeniería.

7:34

Se llama Tukinacer 3TT y funciona a una

7:37

frecuencia, a una frecuencia rarísima, de sólo 12

7:39

hercios.

7:40

Usa una arquitectura que llaman multicoodbook, o sea,

7:43

de múltiples libros de códigos.

7:45

Detengámonos un segundo en los 12 hercios, porque

7:47

a mí me explotó la cabeza con esto.

7:50

Trabajar a 12 hercios parece un desastre total

7:53

para la calidad.

7:54

En audio digital normal hablamos de 44 .100

7:57

hercios para capturar el sonido bien, ¿no?

7:59

Claro, pero ¿es que esto no es audio

8:01

digital normal?

8:02

Ah, vale.

8:03

No son ondas acústicas, son tokens neuronales.

8:07

A ver.

8:08

Sistemas antiguos intentaban aplastar el audio en una

8:10

sola línea de datos.

8:11

Y claro, el modelo tenía que elegir, o

8:14

me guardo qué palabra estás diciendo, o me

8:16

guardo el suspiro que has hecho al final.

8:18

No le cabían las dos cosas, claro.

8:20

Exacto, o explotaba la memoria.

8:22

Entonces, el enfoque multicoodbook lo que hace es

8:24

usar varios canales de información a la vez,

8:27

como si estuvieran apilados.

8:28

O sea, en lugar de intentar meter todo

8:31

el mogollón en un solo tren que va

8:33

muy rápido, usan varios trenes más lentos, pero

8:35

que viajan en paralelo.

8:37

Esa es la analogía.

8:38

Perfecta.

8:38

En el primer tren, el primer codebook va

8:41

la palabra en sí.

8:42

En el segundo y tercero meten el tono

8:45

de tu voz y el volumen.

8:46

Y en los últimos meten los detalles finos.

8:49

La reverberación de tu cuarto, el ruidito de

8:52

los labios al abrirse.

8:53

¡Qué fuerte!

8:54

Al empaquetarlo todo en paralelo, logran meter un

8:57

segundo de audio en solo 12 pasos.

9:00

Esta velocidad tan baja de fotogramas es lo

9:02

que quita tanta carga de procesamiento, pero sin

9:05

perder nada del entorno original.

9:07

Vale.

9:08

Ahora lo entiendo.

9:09

Simplifican el tiempo, pero le meten muchísima profundidad

9:13

a cada fotograma.

9:13

Y encima los resultados que muestran los respaldan,

9:16

porque Carlos menciona que QN3 saca un 3

9:20

.21 en el Benchmark Libre Speech de banda

9:23

ancha.

9:23

Que eso, para que nos hagamos una idea,

9:25

es calidad de transmisión profesional.

9:27

Calidad de estudio total.

9:29

Y en cuanto a la similitud del hablante,

9:30

alcanza un 0 .95.

9:33

Es prácticamente un calco.

9:35

Sí, sí.

9:36

Con Servetus.

9:37

Dejes dialectales.

9:38

El ruido de fondo.

9:39

Todo.

9:40

Aunque, a ver, si te soy sincera, un

9:42

0 .95 suena estupendo en un PDF técnico,

9:46

pero nuestro oído es una máquina implacable para

9:49

el valle inquietante.

9:51

Enseguida notamos si algo suena a ella.

9:53

Ya, el famoso Ankeny Valley.

9:56

Claro.

9:57

Ese 0 .05 % que falta para la

10:00

perfección absoluta es ahí donde le pillamos los

10:03

fallos.

10:03

¿O de verdad en el día a día

10:04

no nos damos cuenta?

10:05

Pues es una objeción súper válida.

10:08

¿La verdad?

10:09

Ese margen minúsculo se nota sobre todo cuando

10:11

hay que hacer cambios súper bruscos, ¿sabes?

10:13

Un sarcasmo muy complejo o si pasas de

10:16

susurrar a gritar de golpe.

10:17

Ahí el modelo puede dudar una fracción de

10:19

segundo.

10:20

Claro.

10:21

Le cuesta pillar ese contexto tan humano.

10:23

Eso es.

10:23

Pero para el 99 % de cosas, leer

10:26

un texto o una conversación normal, ese 0

10:29

.05 % pasa totalmente desapercibido.

10:32

Y sobre todo gracias a cómo maneja el

10:34

ruido de fondo.

10:35

Al meter ese ruidillo, engaña a nuestro cerebro.

10:38

Para que perciba que es una grabación casera

10:40

real.

10:40

Y ese camuflaje acústico funciona también gracias a

10:43

la otra locura técnica del modelo.

10:45

La velocidad.

10:46

Para que charlemos de forma natural, la máquina

10:49

tiene que contestar a tiempo.

10:50

Las sillas de voz clásica siempre te hacen

10:53

esperar.

10:53

¿Cómo demonios consiguen esos 97 milisegundos de latencia?

10:57

Pues porque cambian totalmente el diseño.

11:00

Los sistemas tradicionales van en cascada.

11:02

Como una línea de montaje.

11:04

Primero tienes el modelo de lenguaje que lee

11:06

el texto y dice, vale, vamos a hacer

11:08

este audio.

11:09

Cuando acumula mucho texto, se lo pasa al

11:11

departamento 2, el modelo acústico.

11:13

Que suele ser de difusión.

11:15

Y los modelos de difusión son lentísimos purificando

11:18

el sonido, ¿no?

11:19

Lentísimos.

11:19

Tienen que hacer muchas pasadas para limpiar el

11:21

ruido.

11:22

Entonces, claro, el segundo departamento no puede hacer

11:25

nada hasta que el primero le pasa la

11:26

caja.

11:27

Es un cuello de botella terrible.

11:29

Ya veo.

11:30

Pues lo que hace Quen3r3 es cargarse esa

11:32

línea de montaje secuencial.

11:33

Usa una arquitectura dual track.

11:36

Empieza a procesar el texto.

11:37

El texto y el audio en paralelo, todo

11:38

a la vez, de principio a fin.

11:40

O sea, espera.

11:41

¿Me estás diciendo que no necesita leerse toda

11:44

la frase para saber cómo tiene que entonar

11:47

la última palabra?

11:48

¿Empieza a hablar con solo ver la primera

11:50

letra?

11:51

Tal cual.

11:52

Carlos lo enseña en el análisis.

11:53

Si tú tecleas la H de hola, la

11:56

IA ya está fabricando el sonido del ataque

11:58

de la consonante muda y preparando la forma

12:00

de la vocal O en su cavidad virtual.

12:02

Y todavía ni sabes si vas a poner

12:04

una exclamación al final.

12:05

Madre mía.

12:06

Es que eso es exactamente lo que hace

12:08

nuestro cerebro cuando empezamos a hablar.

12:11

Improvisamos la entonación sobre la marcha.

12:13

Y claro, por eso logran que desde que

12:15

escribes hasta que escuchas el primer paquete de

12:18

audio pasen solo esos 97 milisegundos.

12:20

Y 97 milisegundos lo cambia todo.

12:23

Totalmente.

12:24

En diseño sabemos que por debajo de los

12:26

100 milisegundos el cerebro lo siente como instantáneo.

12:29

Se acabó esa pausa incómoda de dos o

12:31

tres segundos que tenemos con los asistentes de

12:33

voz del móvil hoy en día.

12:34

Y si juntas esto con que es de

12:36

código abierto, tienes delante un cambio de paradigma

12:38

brutal en la industria.

12:40

Las soluciones open source le están pasando por

12:42

la derecha a los modelos cerrados, que además

12:45

te cobran un pastizal.

12:46

Es que el impacto para los creadores de

12:48

contenido va a ser bestial.

12:50

Imagínate, hasta hace nada doblar tu canal de

12:52

YouTube a diez idiomas era un lujo.

12:54

Contratar actores, estudios, sincronizar los labios, miles de

12:57

euros.

12:58

Intocable para el 99 por ciento de la

13:00

gente.

13:01

Vamos, claro.

13:02

Ahora, con una buena gráfica en casa o

13:04

alquilada en la nube.

13:06

Tienes tu voz, mantienes tus pausas y sacas

13:09

el vídeo en diez idiomas diferentes gratis.

13:11

Es de locos.

13:12

Y para los desarrolladores de software ni te

13:14

cuento.

13:15

Antes dependías de APIs de pago.

13:17

Cada vez que tu personaje de videojuego o

13:19

tu asistente virtual abría la boca, te estaban

13:22

cobrando por carácter procesado y encima tenías límites

13:25

de uso.

13:26

Los dichosos rate limits.

13:28

Ya te digo, veías volar el presupuesto.

13:30

Pues ahora te alojas el modelo en tu

13:32

servidor y te da igual procesar 100 horas

13:34

que un millón.

13:36

Coste es el mismo lo que te cueste

13:37

la luz de ese ordenador.

13:39

A ver, haciendo un poco de abogada del

13:40

diablo, mover un modelo de 1 .7 billones

13:43

en local pide un hardware que tampoco regalan.

13:47

¿Tú crees que a corto plazo los desarrolladores

13:49

pequeños van a poder integrar esto o va

13:51

a ser solo para los que ya tienen

13:53

dinero y buenos servidores?

13:54

Es un reto físico real, desde luego.

13:57

La gráfica hace falta, pero para eso está

14:00

el modelo pequeño de 0 .6 billones.

14:02

Y ojo, lo más importante.

14:04

La comunidad de código abierto es un enjambre

14:07

de investigadores.

14:08

Carlos hace una predicción en su vídeo y

14:10

le da un plazo de seis meses.

14:12

¿Seis meses para qué?

14:13

Para que veamos una explosión de apps usando

14:15

esto.

14:16

Porque ahora mismo hay gente en todo el

14:17

mundo reduciendo los requisitos técnicos del modelo, lo

14:20

que llaman cuantización, bajando los pesos para que

14:23

puedas correr esto en un portátil normal o

14:25

incluso en un teléfono móvil sin perder mucha

14:27

calidad.

14:28

Fíjate que seis meses en tecnología hoy en

14:31

día es una eternidad.

14:33

Vamos a ver.

14:34

¿Qué pasa si te vas a meter en

14:34

PCs, en videojuegos, generándote diálogos en tiempo real

14:37

con la voz súper realista en 97 milisegundos

14:41

o audiolibros leyéndose con la voz de tu

14:43

actor favorito al momento?

14:45

Y ahí, amiga mía, llegamos a la gran

14:46

reflexión final que deja todo este despliegue técnico.

14:49

Uy, a ver, cuenta.

14:51

Si este bicho es capaz de copiar tus

14:52

suspiros, tus dudas y hasta el ruido de

14:55

tu habitación con solo tres segundos de tu

14:58

voz.

14:58

Que tres segundos de voz es literalmente un

15:00

audio de WhatsApp diciendo oye, que llego tarde.

15:02

Eso es.

15:04

Con eso me puedes generar un audio hiperrealista

15:06

llorando o pidiendo dinero urgente con ruido de

15:09

sirenas de fondo desde un ordenador en tu

15:11

casa.

15:12

El concepto de prueba de vida digital se

15:14

ha acabado.

15:15

Ya no te puedes fiar del audio.

15:17

Es que hasta ahora desconfiabas de un SMS,

15:20

pero si escuchabas a tu madre angustiada, la

15:23

creías a ciegas.

15:24

Ahora la sociedad entera va a tener que

15:27

aprender a ser escéptica con cualquier nota de

15:29

voz.

15:29

Qué locura.

15:31

Es un cambio profundísimo en cómo nos relacionamos

15:34

con el sonido.

15:35

Arreglamos los problemas técnicos de la inteligencia artificial,

15:38

pero abrimos una brecha enorme en nuestra capacidad

15:41

para saber qué es real y qué no.

15:43

Antes de despedirnos hasta el próximo programa, os

15:46

informamos de que las voces que oyes han

15:48

sido generadas por la IA de Notebook LM

15:51

y que dirigiendo el podcast se encuentra Julio

15:53

Pablo Vázquez, un humano que te envía saludos.

15:56

En caso de error, probablemente sean errores humanos.

15:59

Nos escuchamos.

16:11

Y hasta aquí el episodio de hoy.

16:13

Muchas gracias por tu atención.

16:24

Esto es BIMpraxis.

16:27

Nos escuchamos en el próximo episodio.