LlamaIndex

Aprovecha la integración de LlamaIndex con Oxylabs Web Scraper API para ingerir fácilmente contenido en línea y construir flujos de trabajo impulsados por LLM.

La integración de LlamaIndex con la Oxylabs Web Scraper API te permite extraer y procesar datos web mediante un LLM (Large Language Model) en el mismo flujo de trabajo.

Resumen

LlamaIndex es un framework de datos diseñado para crear aplicaciones de LLM con fuentes de datos externas. Úsalo con Oxylabs Web Scraper API para:

  • Extraer datos estructurados sin gestionar CAPTCHAs, bloqueos de IP o renderizado de JS

  • Procesar resultados con un LLM en el mismo pipeline

  • Crear flujos de trabajo de extremo a extremo desde la extracción hasta la salida impulsada por IA

Primeros pasos

Crea tus credenciales de usuario de API: regístrate para una prueba gratuita o compra el producto en el panel de Oxylabs para crear tus credenciales de usuario de API (USERNAME y PASSWORD).

Si necesitas más de un usuario de API para tu cuenta, contacta con nuestro soporte al cliente o escríbenos a nuestro chat en vivo 24/7.

Configuración del entorno

En esta guía usaremos el lenguaje de programación Python. Instala las librerías requeridas usando pip:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

Crea un archivo .env en el directorio de tu proyecto con tus credenciales de Oxylabs Web Scraper API y tu clave de API de OpenAI:

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

Carga estas variables de entorno en tu script de Python:

Métodos de integración

Hay dos formas de acceder al contenido web mediante Web Scraper API en LlamaIndex:

Oxylabs Reader

El llama-index-readers-oxylabs el módulo contiene clases específicas que te permiten extraer datos de varias fuentes:

Fuente de datos de la API
Clase del lector

Búsqueda web de Google

OxylabsGoogleSearchReader

Anuncios de Google Search

OxylabsGoogleAdsReader

Producto de Amazon

OxylabsAmazonProductReader

Búsqueda en Amazon

OxylabsAmazonSearchReader

Reseñas de Amazon

OxylabsAmazonReviewsReader

Transcripción de YouTube

OxylabsYoutubeTranscriptReader

Por ejemplo, puedes extraer resultados de búsqueda de Google:

Oxylabs Web Reader

Con la clase OxylabsWebReader puedes extraer datos de cualquier URL:

Creando un agente básico de búsqueda con IA

A continuación tienes un ejemplo de un agente de IA simple que puede buscar en Google y responder preguntas:

Configuración avanzada

Gestión de contenido dinámico

La Web Scraper API puede manejar el renderizado de JavaScript:

Configuración del tipo de user agent

Puedes especificar distintos user agents:

Uso de parámetros específicos del destino

Muchos scrapers específicos del destino admiten parámetros adicionales:

Creando índices vectoriales

LlamaIndex es especialmente útil para crear índices vectoriales a partir de contenido web:

Última actualización

¿Te fue útil?