LangChain

Usa el framework LangChain junto con Oxylabs Web Scraper API para extraer datos web e incorporarlos a flujos de trabajo LLM: recopila, procesa y analiza en una sola canalización.

El LangChain integración con la Oxylabs Web Scraper API te permite recopilar y procesar datos web a través de un LLM (Large Language Model) en el mismo flujo de trabajo.

Resumen

LangChain es un framework para crear apps que usan LLMs junto con herramientas, APIs y datos web. Es compatible con Python y JavaScript. Úsalo con Oxylabs Web Scraper API para:

  • Extraer datos estructurados sin gestionar CAPTCHAs, bloqueos de IP o renderizado de JS

  • Procesar resultados con un LLM en el mismo pipeline

  • Crear flujos de trabajo de extremo a extremo desde la extracción hasta la salida impulsada por IA

Primeros pasos

Crea tus credenciales de usuario de API: regístrate para una prueba gratuita o compra el producto en la panel de Oxylabs para crear tus credenciales de usuario de API (USERNAME y PASSWORD).

En esta guía usaremos el lenguaje de programación Python. Instala las librerías requeridas usando pip:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

Configuración del entorno

Crea un archivo .env archivo en el directorio de tu proyecto con las credenciales de usuario de la API de Oxylabs y de OpenAI:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

Carga estas variables de entorno en tu script de Python:

Métodos de integración

Hay dos formas principales de integrar Oxylabs Web Scraper API con LangChain:

Usando el paquete langchain-oxylabs

Para consultas de búsqueda de Google, usa el dedicado langchain-oxylabs paquete, que proporciona una integración lista para usar:

Usando Web Scraper API

Para acceder a otros sitios web además de la búsqueda de Google, puedes enviar directamente una solicitud a Web Scraper API:

Scrapers específicos por destino

Oxylabs proporciona scrapers especializados para varios sitios web populares. Aquí hay algunos ejemplos de fuentes disponibles:

Sitio web
Parámetro de origen
Parámetros requeridos

Google

google_search

query

Amazon

amazon_search

query, dominio (opcional)

Walmart

walmart_search

query

Objetivo

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

Para usar un scraper específico, modifica el payload en la scrape_website función:

Configuración avanzada

Gestión de contenido dinámico

Web Scraper API puede manejar renderizado de JavaScript añadiendo el render parámetro:

Configuración del tipo de user agent

Puedes especificar distintos user agents para simular diferentes dispositivos:

Uso de parámetros específicos del destino

Muchos scrapers específicos por destino admiten parámetros adicionales:

Manejo de errores

Implementa un manejo correcto de errores para aplicaciones de producción:

Última actualización

¿Te fue útil?