E076_Qwen3 TTS Clona tu VOZ en 3 Segundos GRATIS

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

0:40

de BIMPRAXIS.

0:42

Hoy os traemos el asombroso mundo de Qentres

0:46

TTS, la inteligencia artificial de código abierto que

0:50

clona voces en tres segundos.

0:52

Y bueno, arrancamos con una idea que es

0:54

una locura, porque imaginar la situación de enviar

0:57

un audio documentando un proyecto del trabajo, con

1:00

vuestras dudas, esas pausas típicas para respirar, vuestro

1:05

tono normal, y que de repente la voz

1:08

que se reproduce al otro lado habla en

1:10

un japonés perfecto, un idioma chino, que igual

1:12

no habéis estudiado en la vida.

1:14

Es que es brutal, sí.

1:15

Esa es la barrera que acaba de saltar

1:17

por los aires hoy.

1:18

Nos vamos a sumergir de lleno en el

1:20

análisis técnico que ha publicado el canal de

1:22

YouTube Carlos Alarcón, guión ahí, que ha puesto

1:25

a prueba esta nueva familia de modelos de

1:28

síntesis de voz de Alibaba.

1:29

Eso es.

1:30

Y la misión aquí es, digamos, diseccionar un

1:33

poco cómo un sistema que es de código

1:34

abierto, accesible y, ojo, totalmente gratuito, está logrando

1:39

unos resultados que cuestionan directamente el monólogo.

1:42

El monopolio de las grandes empresas, las de

1:44

código cerrado.

1:45

Totalmente.

1:46

Porque, a ver, el punto de partida que

1:47

plantea Carlos en el vídeo no es una

1:49

simple mejora de que el audio suene un

1:51

poquito más limpio, ¿no?

1:52

Que va, que va.

1:53

El verdadero salto arquitectónico aquí es que el

1:56

modelo extrae y aísla lo que podríamos llamar

1:59

la huella dactilar acústica de una persona.

2:02

Y lo hace con una muestra ridícula.

2:04

Ya, de apenas unos segundos, ¿verdad?

2:07

Exacto, de tres a diez segundos.

2:08

Y con eso lo extrapola a cualquier otro

2:10

idioma o contexto.

2:12

Manteniendo una latencia de respuesta de sólo 97

2:14

milisegundos.

2:15

O sea, estas cifras desafían los límites físicos

2:19

que teníamos asumidos en este campo.

2:21

Es que 97 milisegundos es prácticamente tiempo real.

2:24

Vamos a desgranar cómo se sostiene esto, porque

2:27

este salto requiere cambios estructurales gordísimos.

2:31

Claro, cambia todo el motor por dentro.

2:33

Pero antes de entrar en los diagramas de

2:35

flujo y en cómo evitan los cuellos de

2:37

botella clásicos, me interesa muchísimo el entorno de

2:40

pruebas que usa Carlos.

2:42

Porque, claro, te hablan de inteligencia artificial avanzada

2:45

y te imaginas un clúster de servidores de

2:47

la NASA.

2:48

Ya, la típica granja de servidores inmensa.

2:50

Pues no, él ejecuta todo esto usando un

2:53

simple Google Colab con una tarjeta gráfica T4.

2:56

Que eso está al alcance de cualquier desarrollador

2:58

desde su casa.

2:59

Exactamente.

3:00

Y bueno, fíjate que menciona que trabaja con

3:02

dos variantes del modelo.

3:04

Una más pesada, de 1 .7 billones de

3:06

parámetros, y otra bastante más ligera, de 0

3:08

.6 billones.

3:09

Y entiendo que ese desdoblamiento tiene una razón.

3:12

No, no, es una decisión de disería inteligentísima

3:17

de Alibaba.

3:18

El modelo de 1 .7 billones está pensado

3:21

para cuando necesitas una calidad hiperrealista.

3:24

O sea, prioridad absoluta a la naturalidad de

3:27

la voz, el timbre, que entienda bien el

3:29

contexto del texto.

3:30

¿Y el pequeño?

3:31

Pues la versión de 0 .6 billones está

3:34

recortada para priorizar la velocidad pura y dura.

3:37

Está pensada para dispositivos con poca potencia o

3:39

el llamado Edge Computing.

3:42

Sacrificas un pelín de perfección en la entonación,

3:44

pero ganas una fluidez de conversación total.

3:47

Claro, compensas tamaño por rapidez según lo que

3:50

necesites.

3:50

Y esto se ve clarísimo en lo que

3:52

el sistema llama Voice Design, el diseño de

3:55

voces desde cero.

3:56

Porque, a ver, el sistema tiene ya nueve

3:58

voces preestablecidas, con nombres como Shouji o Dilan,

4:01

y soporta hasta diez idiomas.

4:03

Sí, sí, pero la magia de verdad está

4:05

en crear tú la voz.

4:06

Eso es, usando simplemente lenguaje natural en inglés

4:10

para crear a un humano que no existe.

4:12

En el análisis, Carlos le pide al modelo,

4:15

literalmente escribiendo un prompt, la voz de un

4:18

hombre de mediana edad, con voz grave, resonante,

4:21

como si fuera un locutor de publicidad.

4:23

Y el resultado tiene esa reverberación en el

4:25

pecho inconfundible de los anunciantes, ¿verdad?

4:28

Total.

4:29

Pero lo que me dejó de piedra, de

4:31

verdad te lo digo, no es que cambie

4:32

el tono.

4:32

Es el experimento que hace luego con las

4:35

limitaciones fisiológicas.

4:36

Ah, el ejemplo de la profesora de yoga.

4:38

Es una pasada.

4:40

Madre mía.

4:41

Es que Carlos cambia las limitaciones fisiológicas.

4:42

Le pide unas instrucciones y le pide una

4:43

voz de mujer, de entre 30 y 40

4:45

años, serena, paciente, vamos, una profesora de yoga

4:49

en toda regla.

4:50

Y al escuchar el audio, no es que

4:51

simplemente hable más despacio o suene más aguda.

4:54

No, no, es que recrea el cuerpo.

4:57

Exacto.

4:58

Mete de forma súper orgánica el control rítmico

5:01

de la respiración.

5:02

Las pausas no son silencios digitales, vacíos.

5:06

Se escucha como respira pacientemente.

5:08

El modelo entiende el concepto semántico de paz

5:12

o paciencia y lo traduce a los pulmones.

5:15

Fíjate lo que revela eso sobre cómo funciona

5:17

el modelo grande por dentro.

5:19

En los sistemas antiguos, el texto iba por

5:22

un lado y el sonido por otro.

5:24

Aquí, al haber procesado tantos datos, conceptos abstractos

5:27

como meditación se asocian matemáticamente con exhalaciones lentas.

5:31

Es como si simulara la anatomía de la

5:33

persona, no solo el sonido que hace.

5:36

Totalmente.

5:36

Pasa igual con el ejemplo del líquido.

5:38

El niño, ¿te acuerdas?

5:39

¡Ay, sí!

5:40

El niño hiperactivo.

5:41

Carlos le pide un niño de 8 o

5:43

10 años súper animado.

5:44

Y el modelo le mete unos picos de

5:46

emoción, unos quiebres en la voz loquísimos.

5:49

Imita perfectamente esa falta de control en las

5:51

cuerdas vocales que tiene un crío cuando está

5:53

eufórico.

5:54

¡Qué barbaridad!

5:54

¿Y si esto lo hace generando voces de

5:56

la nada?

5:57

¿Lo del voice cloning, la clonación de voz

5:59

directa?

6:00

¿Ya es brujería pura?

6:01

Carlos sube un audio suyo de 7 segundos

6:04

diciendo un simple Hola, esto es una prueba.

6:07

7 segundos.

6:08

7 segundos.

6:08

Es que es nada.

6:08

Nada.

6:09

Y en 14 segundos de procesado, le clona

6:12

la voz en español.

6:13

Pero el desafío de verdad es cuando le

6:15

mete un texto en inglés.

6:16

Claro, porque le clona la identidad acústica, no

6:20

el idioma.

6:21

El modelo genera el discurso en inglés clavando

6:23

la textura vocal de Carlos.

6:25

Y eso, que no le ha dado ni

6:26

media palabra de referencia en inglés.

6:28

¿Y cómo es posible que mantenga tu timbre

6:30

de voz si no te ha escuchado nunca

6:32

hablar en ese idioma?

6:33

Porque usa una técnica que se llama representación

6:36

desenredada.

6:37

¿Por qué?

6:37

O sea, que no le ha dado ni

6:38

media palabra de referencia en inglés.

6:38

El modelo coge el audio original y lo

6:40

separa en dos cajones, por decirlo de alguna

6:42

manera.

6:42

Por un lado, guarda tu identidad física, el

6:45

tamaño de tu laringe, tu caja de resonancia.

6:48

Vale.

6:48

Y por otro lado, guarda las reglas de

6:50

pronunciación del idioma.

6:51

Al separar esa identidad física, puede inyectar tu

6:55

voz en el motor lingüístico del inglés o

6:57

de cualquiera de los 10 idiomas que tiene.

6:59

Pero a ver, espera, espera, que aquí me

7:01

surge una duda técnica bastante gorda.

7:03

Si consigues traer esa acústica con tanta precisión

7:07

y llevarla a la escuela, ¿qué te va

7:08

a dar?

7:08

Si consigues llevarla a otro idioma sin sonar

7:09

a robot barato, ¿cómo resuelven la compresión?

7:12

Buena pregunta.

7:13

Porque, históricamente, para que una IA procese audio

7:17

rápido, tiene que comprimir muchísimo la onda de

7:20

sonido.

7:20

Y ahí te cargas los detalles, te cargas

7:23

las micro risas, la acústica de la habitación,

7:26

el ruidillo de fondo.

7:28

¿Cómo lo hace Alibaba para no cargarse todo

7:30

eso?

7:30

Pues mira, la respuesta es el corazón del

7:32

sistema, que es una locura de ingeniería.

7:34

Se llama Tukinacer 3TT y funciona a una

7:37

frecuencia, a una frecuencia rarísima, de sólo 12

7:39

hercios.

7:40

Usa una arquitectura que llaman multicoodbook, o sea,

7:43

de múltiples libros de códigos.

7:45

Detengámonos un segundo en los 12 hercios, porque

7:47

a mí me explotó la cabeza con esto.

7:50

Trabajar a 12 hercios parece un desastre total

7:53

para la calidad.

7:54

En audio digital normal hablamos de 44 .100

7:57

hercios para capturar el sonido bien, ¿no?

7:59

Claro, pero ¿es que esto no es audio

8:01

digital normal?

8:02

Ah, vale.

8:03

No son ondas acústicas, son tokens neuronales.

8:07

A ver.

8:08

Sistemas antiguos intentaban aplastar el audio en una

8:10

sola línea de datos.

8:11

Y claro, el modelo tenía que elegir, o

8:14

me guardo qué palabra estás diciendo, o me

8:16

guardo el suspiro que has hecho al final.

8:18

No le cabían las dos cosas, claro.

8:20

Exacto, o explotaba la memoria.

8:22

Entonces, el enfoque multicoodbook lo que hace es

8:24

usar varios canales de información a la vez,

8:27

como si estuvieran apilados.

8:28

O sea, en lugar de intentar meter todo

8:31

el mogollón en un solo tren que va

8:33

muy rápido, usan varios trenes más lentos, pero

8:35

que viajan en paralelo.

8:37

Esa es la analogía.

8:38

Perfecta.

8:38

En el primer tren, el primer codebook va

8:41

la palabra en sí.

8:42

En el segundo y tercero meten el tono

8:45

de tu voz y el volumen.

8:46

Y en los últimos meten los detalles finos.

8:49

La reverberación de tu cuarto, el ruidito de

8:52

los labios al abrirse.

8:53

¡Qué fuerte!

8:54

Al empaquetarlo todo en paralelo, logran meter un

8:57

segundo de audio en solo 12 pasos.

9:00

Esta velocidad tan baja de fotogramas es lo

9:02

que quita tanta carga de procesamiento, pero sin

9:05

perder nada del entorno original.

9:07

Vale.

9:08

Ahora lo entiendo.

9:09

Simplifican el tiempo, pero le meten muchísima profundidad

9:13

a cada fotograma.

9:13

Y encima los resultados que muestran los respaldan,

9:16

porque Carlos menciona que QN3 saca un 3

9:20

.21 en el Benchmark Libre Speech de banda

9:23

ancha.

9:23

Que eso, para que nos hagamos una idea,

9:25

es calidad de transmisión profesional.

9:27

Calidad de estudio total.

9:29

Y en cuanto a la similitud del hablante,

9:30

alcanza un 0 .95.

9:33

Es prácticamente un calco.

9:35

Sí, sí.

9:36

Con Servetus.

9:37

Dejes dialectales.

9:38

El ruido de fondo.

9:39

Todo.

9:40

Aunque, a ver, si te soy sincera, un

9:42

0 .95 suena estupendo en un PDF técnico,

9:46

pero nuestro oído es una máquina implacable para

9:49

el valle inquietante.

9:51

Enseguida notamos si algo suena a ella.

9:53

Ya, el famoso Ankeny Valley.

9:56

Claro.

9:57

Ese 0 .05 % que falta para la

10:00

perfección absoluta es ahí donde le pillamos los

10:03

fallos.

10:03

¿O de verdad en el día a día

10:04

no nos damos cuenta?

10:05

Pues es una objeción súper válida.

10:08

¿La verdad?

10:09

Ese margen minúsculo se nota sobre todo cuando

10:11

hay que hacer cambios súper bruscos, ¿sabes?

10:13

Un sarcasmo muy complejo o si pasas de

10:16

susurrar a gritar de golpe.

10:17

Ahí el modelo puede dudar una fracción de

10:19

segundo.

10:20

Claro.

10:21

Le cuesta pillar ese contexto tan humano.

10:23

Eso es.

10:23

Pero para el 99 % de cosas, leer

10:26

un texto o una conversación normal, ese 0

10:29

.05 % pasa totalmente desapercibido.

10:32

Y sobre todo gracias a cómo maneja el

10:34

ruido de fondo.

10:35

Al meter ese ruidillo, engaña a nuestro cerebro.

10:38

Para que perciba que es una grabación casera

10:40

real.

10:40

Y ese camuflaje acústico funciona también gracias a

10:43

la otra locura técnica del modelo.

10:45

La velocidad.

10:46

Para que charlemos de forma natural, la máquina

10:49

tiene que contestar a tiempo.

10:50

Las sillas de voz clásica siempre te hacen

10:53

esperar.

10:53

¿Cómo demonios consiguen esos 97 milisegundos de latencia?

10:57

Pues porque cambian totalmente el diseño.

11:00

Los sistemas tradicionales van en cascada.

11:02

Como una línea de montaje.

11:04

Primero tienes el modelo de lenguaje que lee

11:06

el texto y dice, vale, vamos a hacer

11:08

este audio.

11:09

Cuando acumula mucho texto, se lo pasa al

11:11

departamento 2, el modelo acústico.

11:13

Que suele ser de difusión.

11:15

Y los modelos de difusión son lentísimos purificando

11:18

el sonido, ¿no?

11:19

Lentísimos.

11:19

Tienen que hacer muchas pasadas para limpiar el

11:21

ruido.

11:22

Entonces, claro, el segundo departamento no puede hacer

11:25

nada hasta que el primero le pasa la

11:26

caja.

11:27

Es un cuello de botella terrible.

11:29

Ya veo.

11:30

Pues lo que hace Quen3r3 es cargarse esa

11:32

línea de montaje secuencial.

11:33

Usa una arquitectura dual track.

11:36

Empieza a procesar el texto.

11:37

El texto y el audio en paralelo, todo

11:38

a la vez, de principio a fin.

11:40

O sea, espera.

11:41

¿Me estás diciendo que no necesita leerse toda

11:44

la frase para saber cómo tiene que entonar

11:47

la última palabra?

11:48

¿Empieza a hablar con solo ver la primera

11:50

letra?

11:51

Tal cual.

11:52

Carlos lo enseña en el análisis.

11:53

Si tú tecleas la H de hola, la

11:56

IA ya está fabricando el sonido del ataque

11:58

de la consonante muda y preparando la forma

12:00

de la vocal O en su cavidad virtual.

12:02

Y todavía ni sabes si vas a poner

12:04

una exclamación al final.

12:05

Madre mía.

12:06

Es que eso es exactamente lo que hace

12:08

nuestro cerebro cuando empezamos a hablar.

12:11

Improvisamos la entonación sobre la marcha.

12:13

Y claro, por eso logran que desde que

12:15

escribes hasta que escuchas el primer paquete de

12:18

audio pasen solo esos 97 milisegundos.

12:20

Y 97 milisegundos lo cambia todo.

12:23

Totalmente.

12:24

En diseño sabemos que por debajo de los

12:26

100 milisegundos el cerebro lo siente como instantáneo.

12:29

Se acabó esa pausa incómoda de dos o

12:31

tres segundos que tenemos con los asistentes de

12:33

voz del móvil hoy en día.

12:34

Y si juntas esto con que es de

12:36

código abierto, tienes delante un cambio de paradigma

12:38

brutal en la industria.

12:40

Las soluciones open source le están pasando por

12:42

la derecha a los modelos cerrados, que además

12:45

te cobran un pastizal.

12:46

Es que el impacto para los creadores de

12:48

contenido va a ser bestial.

12:50

Imagínate, hasta hace nada doblar tu canal de

12:52

YouTube a diez idiomas era un lujo.

12:54

Contratar actores, estudios, sincronizar los labios, miles de

12:57

euros.

12:58

Intocable para el 99 por ciento de la

13:00

gente.

13:01

Vamos, claro.

13:02

Ahora, con una buena gráfica en casa o

13:04

alquilada en la nube.

13:06

Tienes tu voz, mantienes tus pausas y sacas

13:09

el vídeo en diez idiomas diferentes gratis.

13:11

Es de locos.

13:12

Y para los desarrolladores de software ni te

13:14

cuento.

13:15

Antes dependías de APIs de pago.

13:17

Cada vez que tu personaje de videojuego o

13:19

tu asistente virtual abría la boca, te estaban

13:22

cobrando por carácter procesado y encima tenías límites

13:25

de uso.

13:26

Los dichosos rate limits.

13:28

Ya te digo, veías volar el presupuesto.

13:30

Pues ahora te alojas el modelo en tu

13:32

servidor y te da igual procesar 100 horas

13:34

que un millón.

13:36

Coste es el mismo lo que te cueste

13:37

la luz de ese ordenador.

13:39

A ver, haciendo un poco de abogada del

13:40

diablo, mover un modelo de 1 .7 billones

13:43

en local pide un hardware que tampoco regalan.

13:47

¿Tú crees que a corto plazo los desarrolladores

13:49

pequeños van a poder integrar esto o va

13:51

a ser solo para los que ya tienen

13:53

dinero y buenos servidores?

13:54

Es un reto físico real, desde luego.

13:57

La gráfica hace falta, pero para eso está

14:00

el modelo pequeño de 0 .6 billones.

14:02

Y ojo, lo más importante.

14:04

La comunidad de código abierto es un enjambre

14:07

de investigadores.

14:08

Carlos hace una predicción en su vídeo y

14:10

le da un plazo de seis meses.

14:12

¿Seis meses para qué?

14:13

Para que veamos una explosión de apps usando

14:15

esto.

14:16

Porque ahora mismo hay gente en todo el

14:17

mundo reduciendo los requisitos técnicos del modelo, lo

14:20

que llaman cuantización, bajando los pesos para que

14:23

puedas correr esto en un portátil normal o

14:25

incluso en un teléfono móvil sin perder mucha

14:27

calidad.

14:28

Fíjate que seis meses en tecnología hoy en

14:31

día es una eternidad.

14:33

Vamos a ver.

14:34

¿Qué pasa si te vas a meter en

14:34

PCs, en videojuegos, generándote diálogos en tiempo real

14:37

con la voz súper realista en 97 milisegundos

14:41

o audiolibros leyéndose con la voz de tu

14:43

actor favorito al momento?

14:45

Y ahí, amiga mía, llegamos a la gran

14:46

reflexión final que deja todo este despliegue técnico.

14:49

Uy, a ver, cuenta.

14:51

Si este bicho es capaz de copiar tus

14:52

suspiros, tus dudas y hasta el ruido de

14:55

tu habitación con solo tres segundos de tu

14:58

voz.

14:58

Que tres segundos de voz es literalmente un

15:00

audio de WhatsApp diciendo oye, que llego tarde.

15:02

Eso es.

15:04

Con eso me puedes generar un audio hiperrealista

15:06

llorando o pidiendo dinero urgente con ruido de

15:09

sirenas de fondo desde un ordenador en tu

15:11

casa.

15:12

El concepto de prueba de vida digital se

15:14

ha acabado.

15:15

Ya no te puedes fiar del audio.

15:17

Es que hasta ahora desconfiabas de un SMS,

15:20

pero si escuchabas a tu madre angustiada, la

15:23

creías a ciegas.

15:24

Ahora la sociedad entera va a tener que

15:27

aprender a ser escéptica con cualquier nota de

15:29

voz.

15:29

Qué locura.

15:31

Es un cambio profundísimo en cómo nos relacionamos

15:34

con el sonido.

15:35

Arreglamos los problemas técnicos de la inteligencia artificial,

15:38

pero abrimos una brecha enorme en nuestra capacidad

15:41

para saber qué es real y qué no.

15:43

Antes de despedirnos hasta el próximo programa, os

15:46

informamos de que las voces que oyes han

15:48

sido generadas por la IA de Notebook LM

15:51

y que dirigiendo el podcast se encuentra Julio

15:53

Pablo Vázquez, un humano que te envía saludos.

15:56

En caso de error, probablemente sean errores humanos.

15:59

Nos escuchamos.

16:11

Y hasta aquí el episodio de hoy.

16:13

Muchas gracias por tu atención.

16:24

Esto es BIMpraxis.

16:27

Nos escuchamos en el próximo episodio.

E076_Qwen3 TTS Clona tu VOZ en 3 Segundos GRATIS

Episode description

Episodio de BIMPRAXIS: Qentres TTS y la Revolución en la Síntesis de Voz

Persons