E046_Unstructured.io estructura tus datos para RAG

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:36

Muy buenas, bienvenidas y bienvenidos al episodio 46

0:41

del podcast de BIMPRAXIS.

0:43

Continuamos con nuestra serie sobre herramientas open source

0:46

gratuitas.

0:47

Y hoy os traemos algo que la verdad

0:49

es una pasada.

0:51

Vamos a analizar una herramienta llamada unstructured .io.

0:55

Imaginad por un momento todo el conocimiento que

0:57

acumula una empresa.

0:59

Informes en PDF, presentaciones, documentos de Word, correos…

1:03

Es un mar de datos.

1:05

El problema es que la mayor parte está,

1:07

como se dice, desestructurado.

1:09

O sea que es un caos para que

1:11

una inteligencia artificial lo entienda.

1:13

Hoy vamos a ver cómo unstructured .io busca

1:16

solucionar justo eso.

1:17

Vamos allá.

1:19

Exacto.

1:19

El objetivo es convertir ese caos de datos

1:22

en un recurso que de verdad aporte valor.

1:25

Y veremos cómo esta herramienta, unstructured, sirve de

1:28

base para una tecnología que está en boca

1:30

de todos, que se llama RAG.

1:32

Esta tecnología permite que las IAs respondan preguntas

1:35

usando información privada y actualizada de una empresa.

1:38

Y, muy importante, de forma segura.

1:41

Bien, pues vamos a desgranar todo esto.

1:44

Para empezar, yendo al grano, ¿qué es exactamente?

1:48

Unstructured, por lo que he visto en las

1:49

fuentes, es un proyecto de código abierto que

1:51

ya tiene más de 50 millones de descargas.

1:54

Correcto.

1:55

No es algo pequeño, para nada.

1:56

Su función principal es, a mí me gusta

1:59

llamarlo, fontanería de datos.

2:01

Fontanería de datos.

2:02

Me gusta.

2:03

Sí, porque coge documentos de cualquier tipo, de

2:06

verdad.

2:06

Un PDF, un .docx, un HTML, incluso imágenes.

2:11

Y los procesa.

2:12

Extrae el texto, las tablas, los títulos, todo.

2:16

Y lo convierte en un formato de documento.

2:17

Un formato limpio y estructurado, que suele ser

2:19

JSON.

2:20

Y este es el primer paso, el que

2:22

es indispensable para que las IAs puedan, digamos,

2:25

leer y entender esa información.

2:27

Y esto nos lleva a las siglas que

2:29

has mencionado antes.

2:30

RAG.

2:31

¿Qué es exactamente?

2:32

Pues RAG son las siglas de Retrieval Augmented

2:37

Generation, o en español, Generación Aumentada por Recuperación.

2:41

Es una técnica que soluciona uno de los

2:43

mayores problemas de los grandes modelos de lenguaje,

2:46

los LLM.

2:47

Que su conocimiento es estático, ¿no?

2:50

Se queda obsoleto.

2:51

Justo.

2:52

Se queda obsoleto y, sobre todo, no tienen

2:55

acceso a datos privados.

2:56

RAG lo que permite es que cuando alguien

2:59

hace una pregunta, el sistema busque la información

3:02

más relevante en una base de datos privada.

3:04

Una base de datos creada con los documentos

3:07

que ha procesado Unstructured.

3:08

Exacto.

3:09

Y le entrega esos trocitos de información al

3:12

LLM en ese momento para que construya la

3:14

respuesta.

3:15

El ejemplo del material es muy claro.

3:17

Ah, sí, el de Twitter.

3:18

Claro.

3:19

Un chatbot sin RAG podría decirte que Twitter

3:21

todavía existe, mientras que uno con RAG, conectado,

3:24

por ejemplo, a Wikipedia, sabría que ahora se

3:26

llama X.

3:27

En uno de los seminarios web que hemos

3:29

analizado, comentan algo que me ha llamado la

3:32

atención.

3:33

Mencionan que ha habido rumores sobre que el

3:36

RAG está muerto.

3:37

¿Es así?

3:38

Uf, ese es el gran mito.

3:40

Las fuentes lo desmienten, pero vamos, categóricamente.

3:43

Ya me imaginaba.

3:44

No solo no está muerto, sino que está

3:46

empleado.

3:47

Es una plena expansión.

3:47

Es que, a ver, se cita una previsión

3:50

de Grandview Research que proyecta un crecimiento anual

3:53

de casi el 40 % hasta 2030.

3:55

¿Una barbaridad?

3:56

Es que hablamos de un mercado que alcanzaría

3:59

más de 10 mil millones de dólares.

4:01

O sea que no está muerto.

4:03

¿Y por qué es tan popular en el

4:05

mundo de la empresa?

4:06

¿Qué es lo que ven en esta tecnología?

4:09

Pues la razón principal, y esto es clave,

4:11

es la seguridad.

4:13

Ah, no tanto el tener los datos actualizados.

4:17

Eso es el gancho.

4:17

Pero lo de fondo es la seguridad.

4:20

Piensa en esto.

4:21

Si una empresa reentrenara un modelo de inteligencia

4:24

artificial con todos sus datos sensibles, de finanzas

4:27

o de recursos humanos, sería un desastre.

4:30

Destruiría todos los controles de acceso.

4:33

Con RAG, los datos se quedan en la

4:35

base de datos de la empresa.

4:36

No salen de ahí.

4:38

El sistema solo recupera los fragmentos que necesita

4:41

para cada consulta.

4:42

Y mantiene la trazabilidad y los permisos.

4:45

De hecho, se habla del problema de...

4:47

El problema es el espejo de control de

4:48

acceso.

4:48

La idea es que si un empleado no

4:50

puede ver una carpeta en el sistema de

4:52

origen, tampoco debería poder consultarla a través del

4:55

sistema RAG.

4:56

Claro, tiene todo el sentido.

4:58

Entonces, ¿cómo funciona a grandes rasgos este proceso?

5:02

Pues tiene dos fases principales.

5:04

Primero, una fase que llaman offline, que es

5:07

la de preparación.

5:08

Ahí es donde Unstructured procesa los documentos, los

5:12

divide en fragmentos, los chunks...

5:14

Y los convierte en vectores.

5:16

Eso es.

5:17

En representaciones matemáticas.

5:18

Y los carga en una base de datos

5:20

vectorial.

5:21

Y luego está la segunda fase, la online,

5:24

que es cuando alguien pregunta.

5:26

Ahí se busca en esa base de datos

5:28

los fragmentos más relevantes para responder.

5:31

Vale.

5:31

Y aquí es donde la cosa se pone

5:33

realmente interesante.

5:35

Porque las fuentes hablan de una evolución.

5:38

Parece que no todos los sistemas RAG son

5:40

iguales.

5:41

Se empieza por un RAG ingenuo y se

5:43

puede llegar a algo que llaman RAG agéntico.

5:47

Exacto.

5:47

El RAG básico, o ingenuo, es un proceso

5:50

lineal.

5:51

Busca, recupera y genera.

5:53

Punto.

5:54

Tiene una sola oportunidad.

5:55

Si la primera búsqueda no da buenos resultados,

5:58

el sistema falla.

5:59

Y supongo que no puede con tareas complejas.

6:02

Para nada.

6:03

No puede resolver algo que requiera múltiples pasos

6:05

o consultar distintas fuentes de datos.

6:08

El RAG agéntico es el siguiente nivel.

6:10

Aquí, el modelo de IA no es solo

6:12

un generador de texto.

6:13

Es más bien un orquestador que razona.

6:16

Un orquestador.

6:17

Sí.

6:17

Puede descomponer una pregunta compleja en subtareas.

6:20

Puede elegir la herramienta adecuada para cada una.

6:23

Buscar en la base de datos, consultar una

6:25

API en tiempo real, hacer una búsqueda web.

6:28

Y lo más importante, puede evaluar sus propios

6:30

resultados y autocorregirse si falla en el primer

6:33

intento.

6:34

Es como la diferencia entre preguntarle a un

6:37

bibliotecario por un libro concreto y encargarle a

6:40

un asistente de investigación un informe complejo.

6:43

Esa es la analogía perfecta.

6:45

El asistente puede ir a la biblioteca.

6:47

Buscar envases de datos online.

6:49

Hacer llamadas si es necesario.

6:51

Precisamente.

6:51

Y bueno, existe todo un espectro de autonomía.

6:55

Desde un simple enrutador, que solo dirige las

6:58

preguntas a la fuente de datos correcta, hasta

7:01

sistemas que llaman de enjambres multiagente, que colaboran

7:05

para resolver tareas muy, muy complejas.

7:08

Entendido.

7:09

Entonces, volviendo a la herramienta principal.

7:11

¿Qué significa todo esto para alguien que quiera

7:14

implementar estas soluciones?

7:17

¿Cómo le ayuda Unstructured a evitar lo que

7:19

en las fuentes llaman, y me encanta la

7:21

expresión, el nido de ratas del hazlo tú

7:23

mismo?

7:24

Es que la expresión es buenísima porque describe

7:26

una realidad muy común.

7:28

Ese nido de ratas es el caos que

7:31

se produce cuando cada equipo de una empresa

7:33

crea sus propias chapuzas para procesar datos.

7:36

Claro, cada uno por su lado.

7:38

Sin estandarización, sin seguridad, sin calidad.

7:41

Unstructured lo que ofrece es una plataforma centralizada

7:44

para gestionar todo ese proceso de ingesta y

7:47

transferencia.

7:47

Una especie de tubería única y robusta.

7:51

Justo.

7:52

Proporciona las herramientas para procesar decenas de tipos

7:54

de archivos, y usa una estrategia que llaman

7:57

de particionamiento de alta resolución, y luego aplica

8:00

enriquecimientos con modelos de visión por lenguaje, los

8:03

VLMs.

8:05

¿Enriquecimientos?

8:06

¿Qué tipo de cosas hace?

8:07

Pues, por ejemplo, puede generar descripciones de las

8:09

imágenes que hay en un documento, o mejorar

8:12

la precisión del texto con OCR generativo.

8:14

O, y esto es muy útil, convertir tablas

8:17

en un documento.

8:17

O, y esto es muy útil, convertir tablas

8:17

complejas a un formato HTML limpio y fácil

8:20

de usar.

8:20

Suena muy potente.

8:22

¿Y todo esto se puede usar de forma

8:24

sencilla?

8:25

Sí.

8:25

Las fuentes destacan dos formas de uso.

8:27

Una es una interfaz de usuario muy visual,

8:30

donde puedes arrastrar un archivo y ver los

8:32

resultados en segundos.

8:34

En la demo se ve con un PDF

8:35

de una inmobiliaria y es una pasada.

8:37

¿Y la otra será para un uso más

8:39

a gran escala, imagino?

8:41

Exacto.

8:41

Una API para integrarlo en flujos de trabajo

8:44

de forma programática.

8:45

Se encarga de todo el trabajo sucio para

8:47

que los equipos de desarrollo puedan centrarse en

8:49

construir los sistemas de IA, no en la

8:51

fontanería.

8:52

En resumen, entonces, Unstructured .io se posiciona como

8:56

una pieza fundamental de código abierto para poner

8:59

orden en el caos de los datos empresariales.

9:02

Es como la infraestructura esencial que permite construir

9:05

después sistemas de IA avanzados, como los de

9:08

RAG y RAG agéntico, que pueden entender y

9:12

utilizar el conocimiento interno de una organización.

9:15

De forma segura y eficaz.

9:16

Esa es la idea central, sí.

9:18

Y aquí me gustaría dejar una reflexión final

9:20

que se deriva de todo esto.

9:22

Adelante.

9:23

Hemos hablado de agentes de IA que usan

9:25

datos para responder preguntas.

9:27

Pero a medida que estos sistemas se vuelven

9:29

más autónomos y son capaces no sólo de

9:31

recuperar información, sino de ejecutar acciones, ¿qué nuevos

9:35

desafíos de gobernanza y control surgirán?

9:38

Quiero decir, ¿qué pasa cuando una IA no

9:40

sólo puede leer todos los datos de una

9:42

empresa, sino también actuar en base a ellos

9:44

usando otras herramientas?

9:45

Es algo en lo que pensar.

9:46

Una pregunta muy potente para terminar, desde luego.

9:50

Y con esto llegamos a la despedida.

9:52

Como siempre, queremos recordaros que detrás de las

9:54

voces sintéticas que escucháis en estos episodios, creadas

9:58

gracias a la IA de Notebook LM, se

10:00

encuentra un humano.

10:01

Un humano con lóbulos auriculares, párpados y trompas

10:05

de eustaquio, entre otras cosas.

10:07

Concretamente, Julio Pablo Vázquez.

10:09

Si detectáis algún error, casi seguro que es

10:11

humano.

10:12

Os esperamos en el próximo episodio.

10:25

Y hasta aquí el episodio de hoy.

10:27

Muchas gracias por tu atención.

10:38

Esto es BIMPRAXIS.

10:40

Nos escuchamos en el próximo episodio.

E046_Unstructured.io estructura tus datos para RAG

Episode description

Persons