E045_Firecrawl__Extracción_de_Datos_Web_para_Inteligencia

0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Buenas, estamos ya en el episodio 45 y

0:40

seguimos con la serie Herramientas Open Source Gratuitas,

0:43

relacionadas, claro, con la IA.

0:45

Hoy traemos una que se llama FireCrowl y

0:48

ahora os explicamos qué es esto.

0:49

Bienvenidos al podcast de BIMPRAXIS.

0:51

Vamos a empezar, como siempre, por el principio.

0:54

Cualquiera que esté metido en construir aplicaciones de

0:57

inteligencia artificial sabe que todo, absolutamente todo, se

1:01

basa en los datos.

1:02

Son el combustible, sí.

1:04

Exacto.

1:04

Pero claro, conseguir esos datos en la web

1:07

suele ser el primero y el mayor obstáculo.

1:09

Uf, y tanto.

1:11

Hay que extraerlos, luego limpiarlos, ponerlos en un

1:14

formato que un...

1:15

una IA pueda entender.

1:16

Es un trabajo enorme.

1:18

Y ahí es donde entran herramientas como la

1:20

de hoy.

1:21

Justo ahí.

1:21

Ahí es donde entra FireCrowl.

1:24

En esencia, es una API, una interfaz de

1:27

programación, que está pensada para desarrolladores.

1:30

Su misión es muy clara.

1:33

Convertir cualquier sitio web en datos limpios y

1:36

listos para un modelo de lenguaje grande, un

1:38

LLM.

1:39

O sea, que no es la típica herramienta

1:41

visual de apuntar y hacer clic.

1:43

Para nada.

1:45

Un motor.

1:45

Uno muy potente.

1:47

Para sacar información de la web de forma

1:49

programada.

1:50

Vale, vamos a desgranar esto un poco.

1:52

La idea principal, entonces, es que se encarga

1:55

de las partes más frustrantes de lo que

1:56

llamamos web scraping, ¿no?

1:58

Eso es.

1:59

Por ejemplo, lidiar con esas webs modernas que

2:02

están llenas de JavaScript y cargan el contenido

2:04

poco a poco.

2:05

Que son un dolor de cabeza.

2:07

Totalmente.

2:08

O gestionar los proxys para que no te

2:10

bloqueen el acceso a la primera de cambio.

2:12

Se encarga de toda esa fontanería.

2:15

De hecho, se centra en cuatro funciones principales.

2:18

A ver.

2:19

La primera sería scrape, que es raspar.

2:22

Le das una única página web y te

2:24

saca el contenido.

2:26

¿Y cómo te lo devuelve?

2:27

Pues te lo da como un archivo Markdown

2:29

ya limpio o en formato JSON, ya estructurado.

2:32

Vale.

2:33

Luego está crawl, que es rastrear.

2:35

Esto ya es para recorrer un sitio web

2:37

entero, todas sus páginas, y recopilar los datos

2:40

del dominio completo.

2:42

Entendido.

2:43

La tercera es map, mapear.

2:45

Te da un mapa rápido de todas las

2:47

URLs de un sitio, para tener una visión

2:49

general de la estructura.

2:51

¿Y la última?

2:52

La última es extract.

2:54

Y esta es la más avanzada, porque está

2:56

impulsada por IA.

2:57

Saca datos muy específicos y estructurados de una

3:00

página.

3:00

Has mencionado lo del Markdown limpio y me

3:02

parece un detalle interesante.

3:04

Porque puede parecer algo menor, pero es bastante

3:06

importante, ¿verdad?

3:07

Es fundamental.

3:08

Reduce drásticamente la cantidad de tokens que envías

3:11

al modelo de IA.

3:12

Claro.

3:12

¿Y eso se traduce directamente?

3:15

En un ahorro de costes, en las llamadas

3:17

a la API.

3:17

Y, muchas veces, también en un mejor rendimiento

3:21

del modelo, porque le das la información mucho

3:23

más clara.

3:24

Aquí es donde la cosa se pone realmente

3:26

interesante.

3:26

En esa función extract.

3:28

¿Totalmente?

3:29

La extracción de datos de toda la vida

3:31

se basaba en apuntar a elementos muy concretos

3:34

del diseño de una web, ¿no?

3:36

Exacto.

3:36

Y si un desarrollador cambiaba algo, por mínimo

3:40

que fuera… Adiós a Scraper.

3:41

Se rompía.

3:42

Era increíblemente frágil.

3:45

Una pesadilla de mantener.

3:46

Y la función extract de Firecrawl soluciona eso.

3:50

¿Cómo?

3:50

Pues lo soluciona cambiando el enfoque.

3:52

En lugar de reglas fijas, usa inteligencia artificial.

3:56

El desarrollador le da una URL y una

3:59

instrucción en lenguaje natural.

4:00

Algo como, obtén los nombres, cargos y correos

4:04

del equipo directivo.

4:05

Ah, vale.

4:06

Le hablas como una persona.

4:07

Justo.

4:08

Y, además, defines la estructura JSON en la

4:11

que quieres recibir esos datos.

4:12

Y la IA de Firecrawl analiza la persona.

4:15

Entiende lo que le pides, encuentra la información

4:18

y te la da ya estructurada.

4:19

La ventaja principal, entonces, es la resiliencia.

4:22

Esa es la palabra.

4:23

Como entiende el significado de los datos, se

4:26

puede adaptar a los cambios de diseño sin

4:28

tener que reescribir el código.

4:29

Y sabemos qué tecnología hay detrás de esto,

4:32

¿verdad?

4:32

¿Qué motor usa?

4:33

Sí, sí, que lo sabemos.

4:34

Usan Gemini 2 .5 Pro, de Google, para

4:37

potenciar este motor de extracción.

4:39

Vaya.

4:40

De hecho, el cofundador de Firecrawl, Eric Ciarla,

4:43

dijo que este modelo fue lo que… Hizo

4:45

factible todo el proyecto.

4:47

¿Ah, sí?

4:47

Sí.

4:48

Parece que otros modelos no manejaban bien la

4:50

complejidad del contenido web real.

4:52

¿Y qué tal la precisión?

4:53

Pues en sus pruebas internas dicen que Gemini

4:56

2 .5 Pro alcanzó una precisión del 98%.

4:59

Un 98 % es una cifra altísima.

5:02

Sí.

5:02

Puede ser un poco confuso.

5:04

No hay un único modelo, sino dos.

5:07

¿Dos sistemas diferentes?

5:08

Exacto.

5:09

Y hay que entender los dos para calcular

5:11

los costes reales.

5:13

Por un lado, está el modelo de credibilidad.

5:15

Este se aplica a las funciones básicas de

5:18

scrape y crawl.

5:19

El más predecible, imagino.

5:21

Sí.

5:21

Una llamada a la API o una página

5:24

rastreada suele costar un crédito.

5:26

Los planes van desde uno gratuito con 500

5:29

créditos, que se dan una sola vez, hasta

5:32

planes de pago como el hobby, por 19

5:34

dólares, que te da 3 .000 créditos al

5:37

mes.

5:37

Vale.

5:38

Hasta ahí bien.

5:39

¿Y el segundo modelo?

5:40

Pues aquí está el detalle crucial.

5:42

La función de extracción con IA, la de

5:45

extract, no utiliza el sistema de créditos.

5:48

Ah.

5:48

Se factura aparte, basándose en tokens, muy parecido

5:52

a cómo pagas por las APIs de OpenAI

5:54

o Anthropic.

5:54

O sea que es una suscripción completamente separada.

5:58

Completamente.

5:58

Si alguien contrata, no sé, el plan estándar

6:01

para raspar datos, pensando que lo tiene todo…

6:04

Se va a llevar una sorpresa.

6:06

Necesita comprar un plan adicional solo para la

6:08

función de extracción.

6:09

Es un detalle que es fácil pasar por

6:11

alto, la verdad, y que puede generar costes

6:13

inesperados.

6:14

Desde luego.

6:15

Los planes para extract empiezan en 89 dólares

6:18

al mes, por 18 millones de tokens al

6:20

año, y de ahí para arriba.

6:22

Entonces, ¿qué significa todo esto?

6:24

Que la suscripción a Firecrawl es en realidad

6:26

solo el punto de partida.

6:28

Correcto.

6:28

Al construir una solución de IA personalizada, hay

6:31

otros costes, y son significativos.

6:33

Como por ejemplo… El tiempo de ingeniería.

6:36

Suele ser el mayor gasto.

6:38

Necesitas desarrolladores cualificados para construir la aplicación, probarla,

6:43

mantenerla.

6:43

Claro.

6:44

Las horas de desarrollo.

6:46

Luego, los costes del LLM.

6:48

Firecrawl te da los datos, pero todavía tienes

6:50

que pagar a un proveedor como OpenAI o

6:53

Anthropic para que los procesen.

6:55

Y la infraestructura, donde corre todo.

6:56

Por supuesto.

6:57

Los costes de infraestructura.

6:59

Necesitas un sitio donde alojar la aplicación, bases

7:02

de datos vectoriales como Pinecone, etc.

7:05

Y también he leído que puede haber problemas

7:07

de escalabilidad.

7:08

Sí, algunos usuarios han señalado que en rastreos

7:11

a gran escala es muy fácil agotar los

7:13

créditos.

7:14

Y eso te puede llevar a tarifas por

7:16

exceso de uso que disparan la factura.

7:18

En resumen, Firecrawl te da las materias primas,

7:21

y de excelente calidad por lo que parece.

7:23

Sí.

7:23

Pero la empresa todavía tiene que construir la

7:25

fábrica, desplegarla y mantenerla para usar esos datos.

7:29

Esa es la disyuntiva.

7:30

Exactamente.

7:31

Las fuentes lo comparan con un enfoque de

7:33

plataforma todo en uno.

7:35

Es la diferencia entre comprar las piezas para

7:38

montar el coche… O comprar el coche ya

7:41

fabricado.

7:41

Justo.

7:42

Son dos filosofías distintas.

7:44

Una es para quien quiere construir algo a

7:47

medida, desde cero, y la otra es para

7:49

quien busca resolver un problema de negocio concreto

7:52

de forma rápida.

7:53

Vale.

7:53

Entonces, para dejarlo claro, ¿quién es el usuario

7:56

ideal de esta herramienta?

7:58

Es ideal para equipos técnicos que están construyendo

8:01

aplicaciones de IA personalizadas desde cero.

8:04

¿Desarrolladores?

8:05

¿Ingenieros?

8:06

Sí.

8:07

De hecho, se integra con herramientas que ya

8:09

usan, como Landchain, donde funciona como un cargador

8:13

de documentos.

8:13

Sí.

8:14

De hecho, se integra con herramientas que ya

8:14

usan, como Landchain, donde funciona como un cargador

8:14

de documentos.

8:14

Además, al ser de código abierto, pues el

8:16

código es transparente y la comunidad puede contribuir.

8:20

O incluso puedes autoalojar la herramienta en tus

8:22

propios servidores.

8:23

Que eso para muchas empresas es clave.

8:25

Fundamental.

8:26

¿Y para qué se está usando en el

8:28

mundo real?

8:28

¿Qué casos de uso destacan?

8:31

Pues… son bastante variados.

8:33

Uno muy claro es crear asistentes de IA

8:35

más inteligentes.

8:37

Alimentar chatbots con contenido web que sea preciso

8:40

y en tiempo real.

8:41

Vale.

8:42

Otro es el enriquecimiento de leads.

8:44

Mejorar los datos de ventas con información extraída

8:47

de la web sobre posibles clientes.

8:49

Eso es muy potente para un equipo comercial.

8:51

Muchísimo.

8:52

Y también para la investigación profunda.

8:54

Para extraer información exhaustiva para análisis de mercado

8:57

o para temas académicos.

8:59

Y no hay que olvidar que, por debajo,

9:01

gestiona automáticamente tareas complejas, como el manejo de

9:04

proxies, contenido bloqueado por Javascript, e incluso puede

9:07

analizar archivos PDF y 12x que encuentre en

9:10

la web.

9:11

Entonces, como conclusión, Firecrawl es una herramienta que,

9:14

además de ser una herramienta potente y muy

9:15

bien diseñada, pero para una tarea muy, muy

9:18

específica.

9:19

Sí, convertir la web en datos estructurados para

9:22

los modelos de IA.

9:23

Si se cuenta con el equipo de ingeniería,

9:25

con el presupuesto y con el tiempo para

9:27

construir una solución a medida, parece una pieza

9:30

excelente para el puzzle tecnológico.

9:32

Pero si el objetivo es resolver un problema

9:34

de negocio, rápido y fiable, es fundamental entender

9:38

el coste y el esfuerzo total, no sólo

9:41

el precio de la herramienta.

9:42

La elección depende enteramente del objetivo final.

9:46

Y para terminar, un último apunte que invita

9:49

a pensar en el futuro.

9:50

Firecrawl está experimentando con un framework de agentes

9:53

llamado Fire1.

9:55

Ah, sí.

9:56

Usa Gemini 2 .5 Pro para interpretar la

9:59

intención del usuario y navegar por la web

10:01

de forma autónoma.

10:02

Y esto apunta a un futuro muy interesante.

10:05

Ya no sólo pedimos datos de una página,

10:07

sino que le damos a una IA un

10:09

objetivo.

10:09

Exacto.

10:10

Y que ella averigüe por sí misma, cómo

10:12

navegar, hacer clic y extraer lo que necesita.

10:15

La pregunta que queda en el aire es,

10:17

¿qué pasaría si en lugar de programar un

10:20

scraper, simplemente le diéramos a una IA un

10:23

objetivo de negocio y la dejáramos navegar por

10:26

la web para cumplirlo?

10:28

Y así hemos llegado al final por hoy.

10:30

Os recordamos que detrás de las voces sintéticas

10:32

que se escuchan en estos episodios, sí, son

10:35

generadas por IA, en concreto por Notebook LM,

10:37

pues se encuentra un humano con duodeno, pulgares

10:40

y algún michelin, entre otras cosas.

10:42

Estamos hablando de Julio Pablo Vázquez, el responsable

10:45

de elegir los temas, el enfoque y hacer

10:46

de hombre orquesta.

10:47

Si se escucha algún error, pedimos disculpas en

10:50

su nombre, porque lo más probable es que

10:51

se trate de un error humano.

10:53

Hasta la próxima, amigos.

11:05

Y hasta aquí el episodio de hoy.

11:07

Muchas gracias por tu atención.

11:18

Esto es BIMPRAXIS.

11:20

Nos escuchamos en el próximo episodio.

E045_Firecrawl__Extracción_de_Datos_Web_para_Inteligencia_Artif

Episode description

Persons