E045_Firecrawl__Extracción_de_Datos_Web_para_Inteligencia_Artif
Ep. 45

E045_Firecrawl__Extracción_de_Datos_Web_para_Inteligencia_Artif

Episode description

Descubre FireCrowl, la API open source esencial para desarrolladores que buscan datos estructurados de alta calidad para modelos de IA. Esta herramienta transforma el contenido web complejo en formatos limpios (Markdown/JSON) mediante funciones de scraping y rastreo avanzado. Analizamos su potente módulo de extracción impulsado por Gemini 2.5 Pro, que utiliza lenguaje natural para obtener información específica de forma resiliente. Abordamos, además, la importancia de comprender su sistema de coste dual (créditos versus tokens) al planificar soluciones de IA personalizadas y escalables.

Download transcript (.srt)
0:09

Buenas, esto es BIMPRAXIS, el podcast donde el

0:15

BIM se encuentra con la inteligencia artificial.

0:20

Exploramos la ciencia, la tecnología y el futuro

0:23

desde el enfoque de la arquitectura, ingeniería y

0:26

construcción.

0:28

¡Empezamos!

0:37

Buenas, estamos ya en el episodio 45 y

0:40

seguimos con la serie Herramientas Open Source Gratuitas,

0:43

relacionadas, claro, con la IA.

0:45

Hoy traemos una que se llama FireCrowl y

0:48

ahora os explicamos qué es esto.

0:49

Bienvenidos al podcast de BIMPRAXIS.

0:51

Vamos a empezar, como siempre, por el principio.

0:54

Cualquiera que esté metido en construir aplicaciones de

0:57

inteligencia artificial sabe que todo, absolutamente todo, se

1:01

basa en los datos.

1:02

Son el combustible, sí.

1:04

Exacto.

1:04

Pero claro, conseguir esos datos en la web

1:07

suele ser el primero y el mayor obstáculo.

1:09

Uf, y tanto.

1:11

Hay que extraerlos, luego limpiarlos, ponerlos en un

1:14

formato que un...

1:15

una IA pueda entender.

1:16

Es un trabajo enorme.

1:18

Y ahí es donde entran herramientas como la

1:20

de hoy.

1:21

Justo ahí.

1:21

Ahí es donde entra FireCrowl.

1:24

En esencia, es una API, una interfaz de

1:27

programación, que está pensada para desarrolladores.

1:30

Su misión es muy clara.

1:33

Convertir cualquier sitio web en datos limpios y

1:36

listos para un modelo de lenguaje grande, un

1:38

LLM.

1:39

O sea, que no es la típica herramienta

1:41

visual de apuntar y hacer clic.

1:43

Para nada.

1:45

Un motor.

1:45

Uno muy potente.

1:47

Para sacar información de la web de forma

1:49

programada.

1:50

Vale, vamos a desgranar esto un poco.

1:52

La idea principal, entonces, es que se encarga

1:55

de las partes más frustrantes de lo que

1:56

llamamos web scraping, ¿no?

1:58

Eso es.

1:59

Por ejemplo, lidiar con esas webs modernas que

2:02

están llenas de JavaScript y cargan el contenido

2:04

poco a poco.

2:05

Que son un dolor de cabeza.

2:07

Totalmente.

2:08

O gestionar los proxys para que no te

2:10

bloqueen el acceso a la primera de cambio.

2:12

Se encarga de toda esa fontanería.

2:15

De hecho, se centra en cuatro funciones principales.

2:18

A ver.

2:19

La primera sería scrape, que es raspar.

2:22

Le das una única página web y te

2:24

saca el contenido.

2:26

¿Y cómo te lo devuelve?

2:27

Pues te lo da como un archivo Markdown

2:29

ya limpio o en formato JSON, ya estructurado.

2:32

Vale.

2:33

Luego está crawl, que es rastrear.

2:35

Esto ya es para recorrer un sitio web

2:37

entero, todas sus páginas, y recopilar los datos

2:40

del dominio completo.

2:42

Entendido.

2:43

La tercera es map, mapear.

2:45

Te da un mapa rápido de todas las

2:47

URLs de un sitio, para tener una visión

2:49

general de la estructura.

2:51

¿Y la última?

2:52

La última es extract.

2:54

Y esta es la más avanzada, porque está

2:56

impulsada por IA.

2:57

Saca datos muy específicos y estructurados de una

3:00

página.

3:00

Has mencionado lo del Markdown limpio y me

3:02

parece un detalle interesante.

3:04

Porque puede parecer algo menor, pero es bastante

3:06

importante, ¿verdad?

3:07

Es fundamental.

3:08

Reduce drásticamente la cantidad de tokens que envías

3:11

al modelo de IA.

3:12

Claro.

3:12

¿Y eso se traduce directamente?

3:15

En un ahorro de costes, en las llamadas

3:17

a la API.

3:17

Y, muchas veces, también en un mejor rendimiento

3:21

del modelo, porque le das la información mucho

3:23

más clara.

3:24

Aquí es donde la cosa se pone realmente

3:26

interesante.

3:26

En esa función extract.

3:28

¿Totalmente?

3:29

La extracción de datos de toda la vida

3:31

se basaba en apuntar a elementos muy concretos

3:34

del diseño de una web, ¿no?

3:36

Exacto.

3:36

Y si un desarrollador cambiaba algo, por mínimo

3:40

que fuera… Adiós a Scraper.

3:41

Se rompía.

3:42

Era increíblemente frágil.

3:45

Una pesadilla de mantener.

3:46

Y la función extract de Firecrawl soluciona eso.

3:50

¿Cómo?

3:50

Pues lo soluciona cambiando el enfoque.

3:52

En lugar de reglas fijas, usa inteligencia artificial.

3:56

El desarrollador le da una URL y una

3:59

instrucción en lenguaje natural.

4:00

Algo como, obtén los nombres, cargos y correos

4:04

del equipo directivo.

4:05

Ah, vale.

4:06

Le hablas como una persona.

4:07

Justo.

4:08

Y, además, defines la estructura JSON en la

4:11

que quieres recibir esos datos.

4:12

Y la IA de Firecrawl analiza la persona.

4:15

Entiende lo que le pides, encuentra la información

4:18

y te la da ya estructurada.

4:19

La ventaja principal, entonces, es la resiliencia.

4:22

Esa es la palabra.

4:23

Como entiende el significado de los datos, se

4:26

puede adaptar a los cambios de diseño sin

4:28

tener que reescribir el código.

4:29

Y sabemos qué tecnología hay detrás de esto,

4:32

¿verdad?

4:32

¿Qué motor usa?

4:33

Sí, sí, que lo sabemos.

4:34

Usan Gemini 2 .5 Pro, de Google, para

4:37

potenciar este motor de extracción.

4:39

Vaya.

4:40

De hecho, el cofundador de Firecrawl, Eric Ciarla,

4:43

dijo que este modelo fue lo que… Hizo

4:45

factible todo el proyecto.

4:47

¿Ah, sí?

4:47

Sí.

4:48

Parece que otros modelos no manejaban bien la

4:50

complejidad del contenido web real.

4:52

¿Y qué tal la precisión?

4:53

Pues en sus pruebas internas dicen que Gemini

4:56

2 .5 Pro alcanzó una precisión del 98%.

4:59

Un 98 % es una cifra altísima.

5:02

Sí.

5:02

Puede ser un poco confuso.

5:04

No hay un único modelo, sino dos.

5:07

¿Dos sistemas diferentes?

5:08

Exacto.

5:09

Y hay que entender los dos para calcular

5:11

los costes reales.

5:13

Por un lado, está el modelo de credibilidad.

5:15

Este se aplica a las funciones básicas de

5:18

scrape y crawl.

5:19

El más predecible, imagino.

5:21

Sí.

5:21

Una llamada a la API o una página

5:24

rastreada suele costar un crédito.

5:26

Los planes van desde uno gratuito con 500

5:29

créditos, que se dan una sola vez, hasta

5:32

planes de pago como el hobby, por 19

5:34

dólares, que te da 3 .000 créditos al

5:37

mes.

5:37

Vale.

5:38

Hasta ahí bien.

5:39

¿Y el segundo modelo?

5:40

Pues aquí está el detalle crucial.

5:42

La función de extracción con IA, la de

5:45

extract, no utiliza el sistema de créditos.

5:48

Ah.

5:48

Se factura aparte, basándose en tokens, muy parecido

5:52

a cómo pagas por las APIs de OpenAI

5:54

o Anthropic.

5:54

O sea que es una suscripción completamente separada.

5:58

Completamente.

5:58

Si alguien contrata, no sé, el plan estándar

6:01

para raspar datos, pensando que lo tiene todo…

6:04

Se va a llevar una sorpresa.

6:06

Necesita comprar un plan adicional solo para la

6:08

función de extracción.

6:09

Es un detalle que es fácil pasar por

6:11

alto, la verdad, y que puede generar costes

6:13

inesperados.

6:14

Desde luego.

6:15

Los planes para extract empiezan en 89 dólares

6:18

al mes, por 18 millones de tokens al

6:20

año, y de ahí para arriba.

6:22

Entonces, ¿qué significa todo esto?

6:24

Que la suscripción a Firecrawl es en realidad

6:26

solo el punto de partida.

6:28

Correcto.

6:28

Al construir una solución de IA personalizada, hay

6:31

otros costes, y son significativos.

6:33

Como por ejemplo… El tiempo de ingeniería.

6:36

Suele ser el mayor gasto.

6:38

Necesitas desarrolladores cualificados para construir la aplicación, probarla,

6:43

mantenerla.

6:43

Claro.

6:44

Las horas de desarrollo.

6:46

Luego, los costes del LLM.

6:48

Firecrawl te da los datos, pero todavía tienes

6:50

que pagar a un proveedor como OpenAI o

6:53

Anthropic para que los procesen.

6:55

Y la infraestructura, donde corre todo.

6:56

Por supuesto.

6:57

Los costes de infraestructura.

6:59

Necesitas un sitio donde alojar la aplicación, bases

7:02

de datos vectoriales como Pinecone, etc.

7:05

Y también he leído que puede haber problemas

7:07

de escalabilidad.

7:08

Sí, algunos usuarios han señalado que en rastreos

7:11

a gran escala es muy fácil agotar los

7:13

créditos.

7:14

Y eso te puede llevar a tarifas por

7:16

exceso de uso que disparan la factura.

7:18

En resumen, Firecrawl te da las materias primas,

7:21

y de excelente calidad por lo que parece.

7:23

Sí.

7:23

Pero la empresa todavía tiene que construir la

7:25

fábrica, desplegarla y mantenerla para usar esos datos.

7:29

Esa es la disyuntiva.

7:30

Exactamente.

7:31

Las fuentes lo comparan con un enfoque de

7:33

plataforma todo en uno.

7:35

Es la diferencia entre comprar las piezas para

7:38

montar el coche… O comprar el coche ya

7:41

fabricado.

7:41

Justo.

7:42

Son dos filosofías distintas.

7:44

Una es para quien quiere construir algo a

7:47

medida, desde cero, y la otra es para

7:49

quien busca resolver un problema de negocio concreto

7:52

de forma rápida.

7:53

Vale.

7:53

Entonces, para dejarlo claro, ¿quién es el usuario

7:56

ideal de esta herramienta?

7:58

Es ideal para equipos técnicos que están construyendo

8:01

aplicaciones de IA personalizadas desde cero.

8:04

¿Desarrolladores?

8:05

¿Ingenieros?

8:06

Sí.

8:07

De hecho, se integra con herramientas que ya

8:09

usan, como Landchain, donde funciona como un cargador

8:13

de documentos.

8:13

Sí.

8:14

De hecho, se integra con herramientas que ya

8:14

usan, como Landchain, donde funciona como un cargador

8:14

de documentos.

8:14

Además, al ser de código abierto, pues el

8:16

código es transparente y la comunidad puede contribuir.

8:20

O incluso puedes autoalojar la herramienta en tus

8:22

propios servidores.

8:23

Que eso para muchas empresas es clave.

8:25

Fundamental.

8:26

¿Y para qué se está usando en el

8:28

mundo real?

8:28

¿Qué casos de uso destacan?

8:31

Pues… son bastante variados.

8:33

Uno muy claro es crear asistentes de IA

8:35

más inteligentes.

8:37

Alimentar chatbots con contenido web que sea preciso

8:40

y en tiempo real.

8:41

Vale.

8:42

Otro es el enriquecimiento de leads.

8:44

Mejorar los datos de ventas con información extraída

8:47

de la web sobre posibles clientes.

8:49

Eso es muy potente para un equipo comercial.

8:51

Muchísimo.

8:52

Y también para la investigación profunda.

8:54

Para extraer información exhaustiva para análisis de mercado

8:57

o para temas académicos.

8:59

Y no hay que olvidar que, por debajo,

9:01

gestiona automáticamente tareas complejas, como el manejo de

9:04

proxies, contenido bloqueado por Javascript, e incluso puede

9:07

analizar archivos PDF y 12x que encuentre en

9:10

la web.

9:11

Entonces, como conclusión, Firecrawl es una herramienta que,

9:14

además de ser una herramienta potente y muy

9:15

bien diseñada, pero para una tarea muy, muy

9:18

específica.

9:19

Sí, convertir la web en datos estructurados para

9:22

los modelos de IA.

9:23

Si se cuenta con el equipo de ingeniería,

9:25

con el presupuesto y con el tiempo para

9:27

construir una solución a medida, parece una pieza

9:30

excelente para el puzzle tecnológico.

9:32

Pero si el objetivo es resolver un problema

9:34

de negocio, rápido y fiable, es fundamental entender

9:38

el coste y el esfuerzo total, no sólo

9:41

el precio de la herramienta.

9:42

La elección depende enteramente del objetivo final.

9:46

Y para terminar, un último apunte que invita

9:49

a pensar en el futuro.

9:50

Firecrawl está experimentando con un framework de agentes

9:53

llamado Fire1.

9:55

Ah, sí.

9:56

Usa Gemini 2 .5 Pro para interpretar la

9:59

intención del usuario y navegar por la web

10:01

de forma autónoma.

10:02

Y esto apunta a un futuro muy interesante.

10:05

Ya no sólo pedimos datos de una página,

10:07

sino que le damos a una IA un

10:09

objetivo.

10:09

Exacto.

10:10

Y que ella averigüe por sí misma, cómo

10:12

navegar, hacer clic y extraer lo que necesita.

10:15

La pregunta que queda en el aire es,

10:17

¿qué pasaría si en lugar de programar un

10:20

scraper, simplemente le diéramos a una IA un

10:23

objetivo de negocio y la dejáramos navegar por

10:26

la web para cumplirlo?

10:28

Y así hemos llegado al final por hoy.

10:30

Os recordamos que detrás de las voces sintéticas

10:32

que se escuchan en estos episodios, sí, son

10:35

generadas por IA, en concreto por Notebook LM,

10:37

pues se encuentra un humano con duodeno, pulgares

10:40

y algún michelin, entre otras cosas.

10:42

Estamos hablando de Julio Pablo Vázquez, el responsable

10:45

de elegir los temas, el enfoque y hacer

10:46

de hombre orquesta.

10:47

Si se escucha algún error, pedimos disculpas en

10:50

su nombre, porque lo más probable es que

10:51

se trate de un error humano.

10:53

Hasta la próxima, amigos.

11:05

Y hasta aquí el episodio de hoy.

11:07

Muchas gracias por tu atención.

11:18

Esto es BIMPRAXIS.

11:20

Nos escuchamos en el próximo episodio.