E046_Unstructured.io estructura tus datos para RAG
Ep. 46

E046_Unstructured.io estructura tus datos para RAG

Episode description

Descubre Unstructured.io, la herramienta open source esencial para gestionar el caos de datos empresariales. Analizamos cómo este proyecto de “fontanería de datos” convierte documentos desestructurados (PDFs, Word, imágenes) en formatos limpios, actuando como la infraestructura clave para construir sistemas avanzados de Inteligencia Artificial. Exploramos a fondo la tecnología RAG (Generación Aumentada por Recuperación), su crecimiento exponencial y cómo permite a los grandes modelos de lenguaje acceder a información privada y actualizada de forma segura. Además, detallamos la evolución del RAG, desde su versión básica hasta el potente RAG agéntico, que orquesta tareas complejas y mantiene la trazabilidad de los datos sensibles de la organización.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas y bienvenidos al episodio 46

0:41

del podcast de BIMPRAXIS.

0:43

Continuamos con nuestra serie sobre herramientas open source

0:46

gratuitas.

0:47

Y hoy os traemos algo que la verdad

0:49

es una pasada.

0:51

Vamos a analizar una herramienta llamada unstructured .io.

0:55

Imaginad por un momento todo el conocimiento que

0:57

acumula una empresa.

0:59

Informes en PDF, presentaciones, documentos de Word, correos…

1:03

Es un mar de datos.

1:05

El problema es que la mayor parte está,

1:07

como se dice, desestructurado.

1:09

O sea que es un caos para que

1:11

una inteligencia artificial lo entienda.

1:13

Hoy vamos a ver cómo unstructured .io busca

1:16

solucionar justo eso.

1:17

Vamos allá.

1:19

Exacto.

1:19

El objetivo es convertir ese caos de datos

1:22

en un recurso que de verdad aporte valor.

1:25

Y veremos cómo esta herramienta, unstructured, sirve de

1:28

base para una tecnología que está en boca

1:30

de todos, que se llama RAG.

1:32

Esta tecnología permite que las IAs respondan preguntas

1:35

usando información privada y actualizada de una empresa.

1:38

Y, muy importante, de forma segura.

1:41

Bien, pues vamos a desgranar todo esto.

1:44

Para empezar, yendo al grano, ¿qué es exactamente?

1:48

Unstructured, por lo que he visto en las

1:49

fuentes, es un proyecto de código abierto que

1:51

ya tiene más de 50 millones de descargas.

1:54

Correcto.

1:55

No es algo pequeño, para nada.

1:56

Su función principal es, a mí me gusta

1:59

llamarlo, fontanería de datos.

2:01

Fontanería de datos.

2:02

Me gusta.

2:03

Sí, porque coge documentos de cualquier tipo, de

2:06

verdad.

2:06

Un PDF, un .docx, un HTML, incluso imágenes.

2:11

Y los procesa.

2:12

Extrae el texto, las tablas, los títulos, todo.

2:16

Y lo convierte en un formato de documento.

2:17

Un formato limpio y estructurado, que suele ser

2:19

JSON.

2:20

Y este es el primer paso, el que

2:22

es indispensable para que las IAs puedan, digamos,

2:25

leer y entender esa información.

2:27

Y esto nos lleva a las siglas que

2:29

has mencionado antes.

2:30

RAG.

2:31

¿Qué es exactamente?

2:32

Pues RAG son las siglas de Retrieval Augmented

2:37

Generation, o en español, Generación Aumentada por Recuperación.

2:41

Es una técnica que soluciona uno de los

2:43

mayores problemas de los grandes modelos de lenguaje,

2:46

los LLM.

2:47

Que su conocimiento es estático, ¿no?

2:50

Se queda obsoleto.

2:51

Justo.

2:52

Se queda obsoleto y, sobre todo, no tienen

2:55

acceso a datos privados.

2:56

RAG lo que permite es que cuando alguien

2:59

hace una pregunta, el sistema busque la información

3:02

más relevante en una base de datos privada.

3:04

Una base de datos creada con los documentos

3:07

que ha procesado Unstructured.

3:08

Exacto.

3:09

Y le entrega esos trocitos de información al

3:12

LLM en ese momento para que construya la

3:14

respuesta.

3:15

El ejemplo del material es muy claro.

3:17

Ah, sí, el de Twitter.

3:18

Claro.

3:19

Un chatbot sin RAG podría decirte que Twitter

3:21

todavía existe, mientras que uno con RAG, conectado,

3:24

por ejemplo, a Wikipedia, sabría que ahora se

3:26

llama X.

3:27

En uno de los seminarios web que hemos

3:29

analizado, comentan algo que me ha llamado la

3:32

atención.

3:33

Mencionan que ha habido rumores sobre que el

3:36

RAG está muerto.

3:37

¿Es así?

3:38

Uf, ese es el gran mito.

3:40

Las fuentes lo desmienten, pero vamos, categóricamente.

3:43

Ya me imaginaba.

3:44

No solo no está muerto, sino que está

3:46

empleado.

3:47

Es una plena expansión.

3:47

Es que, a ver, se cita una previsión

3:50

de Grandview Research que proyecta un crecimiento anual

3:53

de casi el 40 % hasta 2030.

3:55

¿Una barbaridad?

3:56

Es que hablamos de un mercado que alcanzaría

3:59

más de 10 mil millones de dólares.

4:01

O sea que no está muerto.

4:03

¿Y por qué es tan popular en el

4:05

mundo de la empresa?

4:06

¿Qué es lo que ven en esta tecnología?

4:09

Pues la razón principal, y esto es clave,

4:11

es la seguridad.

4:13

Ah, no tanto el tener los datos actualizados.

4:17

Eso es el gancho.

4:17

Pero lo de fondo es la seguridad.

4:20

Piensa en esto.

4:21

Si una empresa reentrenara un modelo de inteligencia

4:24

artificial con todos sus datos sensibles, de finanzas

4:27

o de recursos humanos, sería un desastre.

4:30

Destruiría todos los controles de acceso.

4:33

Con RAG, los datos se quedan en la

4:35

base de datos de la empresa.

4:36

No salen de ahí.

4:38

El sistema solo recupera los fragmentos que necesita

4:41

para cada consulta.

4:42

Y mantiene la trazabilidad y los permisos.

4:45

De hecho, se habla del problema de...

4:47

El problema es el espejo de control de

4:48

acceso.

4:48

La idea es que si un empleado no

4:50

puede ver una carpeta en el sistema de

4:52

origen, tampoco debería poder consultarla a través del

4:55

sistema RAG.

4:56

Claro, tiene todo el sentido.

4:58

Entonces, ¿cómo funciona a grandes rasgos este proceso?

5:02

Pues tiene dos fases principales.

5:04

Primero, una fase que llaman offline, que es

5:07

la de preparación.

5:08

Ahí es donde Unstructured procesa los documentos, los

5:12

divide en fragmentos, los chunks...

5:14

Y los convierte en vectores.

5:16

Eso es.

5:17

En representaciones matemáticas.

5:18

Y los carga en una base de datos

5:20

vectorial.

5:21

Y luego está la segunda fase, la online,

5:24

que es cuando alguien pregunta.

5:26

Ahí se busca en esa base de datos

5:28

los fragmentos más relevantes para responder.

5:31

Vale.

5:31

Y aquí es donde la cosa se pone

5:33

realmente interesante.

5:35

Porque las fuentes hablan de una evolución.

5:38

Parece que no todos los sistemas RAG son

5:40

iguales.

5:41

Se empieza por un RAG ingenuo y se

5:43

puede llegar a algo que llaman RAG agéntico.

5:47

Exacto.

5:47

El RAG básico, o ingenuo, es un proceso

5:50

lineal.

5:51

Busca, recupera y genera.

5:53

Punto.

5:54

Tiene una sola oportunidad.

5:55

Si la primera búsqueda no da buenos resultados,

5:58

el sistema falla.

5:59

Y supongo que no puede con tareas complejas.

6:02

Para nada.

6:03

No puede resolver algo que requiera múltiples pasos

6:05

o consultar distintas fuentes de datos.

6:08

El RAG agéntico es el siguiente nivel.

6:10

Aquí, el modelo de IA no es solo

6:12

un generador de texto.

6:13

Es más bien un orquestador que razona.

6:16

Un orquestador.

6:17

Sí.

6:17

Puede descomponer una pregunta compleja en subtareas.

6:20

Puede elegir la herramienta adecuada para cada una.

6:23

Buscar en la base de datos, consultar una

6:25

API en tiempo real, hacer una búsqueda web.

6:28

Y lo más importante, puede evaluar sus propios

6:30

resultados y autocorregirse si falla en el primer

6:33

intento.

6:34

Es como la diferencia entre preguntarle a un

6:37

bibliotecario por un libro concreto y encargarle a

6:40

un asistente de investigación un informe complejo.

6:43

Esa es la analogía perfecta.

6:45

El asistente puede ir a la biblioteca.

6:47

Buscar envases de datos online.

6:49

Hacer llamadas si es necesario.

6:51

Precisamente.

6:51

Y bueno, existe todo un espectro de autonomía.

6:55

Desde un simple enrutador, que solo dirige las

6:58

preguntas a la fuente de datos correcta, hasta

7:01

sistemas que llaman de enjambres multiagente, que colaboran

7:05

para resolver tareas muy, muy complejas.

7:08

Entendido.

7:09

Entonces, volviendo a la herramienta principal.

7:11

¿Qué significa todo esto para alguien que quiera

7:14

implementar estas soluciones?

7:17

¿Cómo le ayuda Unstructured a evitar lo que

7:19

en las fuentes llaman, y me encanta la

7:21

expresión, el nido de ratas del hazlo tú

7:23

mismo?

7:24

Es que la expresión es buenísima porque describe

7:26

una realidad muy común.

7:28

Ese nido de ratas es el caos que

7:31

se produce cuando cada equipo de una empresa

7:33

crea sus propias chapuzas para procesar datos.

7:36

Claro, cada uno por su lado.

7:38

Sin estandarización, sin seguridad, sin calidad.

7:41

Unstructured lo que ofrece es una plataforma centralizada

7:44

para gestionar todo ese proceso de ingesta y

7:47

transferencia.

7:47

Una especie de tubería única y robusta.

7:51

Justo.

7:52

Proporciona las herramientas para procesar decenas de tipos

7:54

de archivos, y usa una estrategia que llaman

7:57

de particionamiento de alta resolución, y luego aplica

8:00

enriquecimientos con modelos de visión por lenguaje, los

8:03

VLMs.

8:05

¿Enriquecimientos?

8:06

¿Qué tipo de cosas hace?

8:07

Pues, por ejemplo, puede generar descripciones de las

8:09

imágenes que hay en un documento, o mejorar

8:12

la precisión del texto con OCR generativo.

8:14

O, y esto es muy útil, convertir tablas

8:17

en un documento.

8:17

O, y esto es muy útil, convertir tablas

8:17

complejas a un formato HTML limpio y fácil

8:20

de usar.

8:20

Suena muy potente.

8:22

¿Y todo esto se puede usar de forma

8:24

sencilla?

8:25

Sí.

8:25

Las fuentes destacan dos formas de uso.

8:27

Una es una interfaz de usuario muy visual,

8:30

donde puedes arrastrar un archivo y ver los

8:32

resultados en segundos.

8:34

En la demo se ve con un PDF

8:35

de una inmobiliaria y es una pasada.

8:37

¿Y la otra será para un uso más

8:39

a gran escala, imagino?

8:41

Exacto.

8:41

Una API para integrarlo en flujos de trabajo

8:44

de forma programática.

8:45

Se encarga de todo el trabajo sucio para

8:47

que los equipos de desarrollo puedan centrarse en

8:49

construir los sistemas de IA, no en la

8:51

fontanería.

8:52

En resumen, entonces, Unstructured .io se posiciona como

8:56

una pieza fundamental de código abierto para poner

8:59

orden en el caos de los datos empresariales.

9:02

Es como la infraestructura esencial que permite construir

9:05

después sistemas de IA avanzados, como los de

9:08

RAG y RAG agéntico, que pueden entender y

9:12

utilizar el conocimiento interno de una organización.

9:15

De forma segura y eficaz.

9:16

Esa es la idea central, sí.

9:18

Y aquí me gustaría dejar una reflexión final

9:20

que se deriva de todo esto.

9:22

Adelante.

9:23

Hemos hablado de agentes de IA que usan

9:25

datos para responder preguntas.

9:27

Pero a medida que estos sistemas se vuelven

9:29

más autónomos y son capaces no sólo de

9:31

recuperar información, sino de ejecutar acciones, ¿qué nuevos

9:35

desafíos de gobernanza y control surgirán?

9:38

Quiero decir, ¿qué pasa cuando una IA no

9:40

sólo puede leer todos los datos de una

9:42

empresa, sino también actuar en base a ellos

9:44

usando otras herramientas?

9:45

Es algo en lo que pensar.

9:46

Una pregunta muy potente para terminar, desde luego.

9:50

Y con esto llegamos a la despedida.

9:52

Como siempre, queremos recordaros que detrás de las

9:54

voces sintéticas que escucháis en estos episodios, creadas

9:58

gracias a la IA de Notebook LM, se

10:00

encuentra un humano.

10:01

Un humano con lóbulos auriculares, párpados y trompas

10:05

de eustaquio, entre otras cosas.

10:07

Concretamente, Julio Pablo Vázquez.

10:09

Si detectáis algún error, casi seguro que es

10:11

humano.

10:12

Os esperamos en el próximo episodio.

10:25

Y hasta aquí el episodio de hoy.

10:27

Muchas gracias por tu atención.

10:38

Esto es BIMPRAXIS.

10:40

Nos escuchamos en el próximo episodio.