# LangChain

El **LangChain** integración con la [**Oxylabs Web Scraper API**](https://oxylabs.io/products/scraper-api/web) te permite recopilar y procesar datos web a través de un LLM (Large Language Model) en el mismo flujo de trabajo.

## Resumen

**LangChain** es un framework para crear apps que usan LLMs junto con herramientas, APIs y datos web. Es compatible con Python y JavaScript. Úsalo con [**Oxylabs Web Scraper API** ](http://developers.oxylabs.io/scraper-apis/web-scraper-api?_gl=1*1ljhay3*_gcl_aw*R0NMLjE3NDYxODM0ODcuQ2owS0NRancydEhBQmhDaUFSSXNBTlp6RFdvSXlSNVg3blQtd0ZEakxHOUlvdUhyQmtoRTRCeUNwc054dFJVMmh0Z3dZTTR3Nm90SjVKOGFBbHhhRUFMd193Y0I.*_gcl_au*MjU4NDEzMTkwLjE3NDExNzU2MzI.)para:

* Extraer datos estructurados sin gestionar CAPTCHAs, bloqueos de IP o renderizado de JS
* Procesar resultados con un LLM en el mismo pipeline
* Crear flujos de trabajo de extremo a extremo desde la extracción hasta la salida impulsada por IA

## Primeros pasos

**Crea tus credenciales de usuario de API**: regístrate para una prueba gratuita o compra el producto en la [**panel de Oxylabs**](https://dashboard.oxylabs.io/en/registration) para crear tus credenciales de usuario de API (`USERNAME` y `PASSWORD`).

{% hint style="warning" %}
Si necesitas más de un usuario de API para tu cuenta, contacta con nuestro [**soporte al cliente**](mailto:support@oxylabs.io) o envía un mensaje a nuestro soporte de chat en vivo 24/7.
{% endhint %}

En esta guía usaremos el lenguaje de programación Python. Instala las librerías requeridas usando pip:

```bash
pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv
```

## Configuración del entorno

Crea un archivo `.env` archivo en el directorio de tu proyecto con las credenciales de usuario de la API de Oxylabs y de OpenAI:

```
OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key
```

Carga estas variables de entorno en tu script de Python:

```python
import os
from dotenv import load_dotenv

load_dotenv()
```

## Métodos de integración

Hay dos formas principales de integrar Oxylabs Web Scraper API con LangChain:

### Usando el paquete langchain-oxylabs

Para consultas de búsqueda de Google, usa el dedicado [`langchain-oxylabs`](https://python.langchain.com/docs/integrations/tools/oxylabs/) paquete, que proporciona una integración lista para usar:

```python
import os
from dotenv import load_dotenv
from langchain.chat_models import init_chat_model
from langgraph.prebuilt import create_react_agent
from langchain_oxylabs import OxylabsSearchAPIWrapper, OxylabsSearchRun

load_dotenv()

# Initialize your preferred LLM model
llm = init_chat_model(
    "gpt-4o-mini",
    model_provider="openai",
    api_key=os.getenv("OPENAI_API_KEY")
)

# Initialize the Google search tool
search = OxylabsSearchRun(
    wrapper=OxylabsSearchAPIWrapper(
        oxylabs_username=os.getenv("OXYLABS_USERNAME"),
        oxylabs_password=os.getenv("OXYLABS_PASSWORD")
    )
)

# Create an agent that uses the Google search tool
agent = create_react_agent(llm, [search])

# Example usage
user_input = "When and why did the Maya civilization collapse?"
response = agent.invoke({"messages": user_input})
print(response["messages"][-1].content)
```

### Usando Web Scraper API&#x20;

Para acceder a otros sitios web además de la búsqueda de Google, puedes enviar directamente una solicitud a Web Scraper API:

```python
import os
import requests
from dotenv import load_dotenv
from langchain_openai import OpenAI
from langchain_core.prompts import PromptTemplate

load_dotenv()

def scrape_website(url):
    """Scrape the website using Oxylabs Web Scraper API"""
    payload = {
        "source": "universal",
        "url": url,
        "parse": True
    }
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload
    )
    
    if response.status_code == 200:
        data = response.json()
        content = data["results"][0]["content"]
        return str(content)
    else:
        print(f"Failed to scrape website: {response.text}")
        return None

def process_content(content):
    """Procesa el contenido extraído usando LangChain"""
    if not content:
        print("No content to process.")
        return None
        
    prompt = PromptTemplate.from_template(
        "Analyze the following website content and summarize key points: {content}"
    )
    chain = prompt | OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
    result = chain.invoke({"content": content})
    return result

def main(url):
    print("Scraping website...")
    scraped_content = scrape_website(url)
    if scraped_content:
        print("Processing scraped content with LangChain...")
        analysis = process_content(scraped_content)
        print("\nProcessed Analysis:\n", analysis)
    else:
        print("No content scraped.")

if __name__ == "__main__":
    url = "https://sandbox.oxylabs.io/products/1"
    main(url)
```

## Scrapers específicos por destino

Oxylabs proporciona [**scrapers especializados**](/api-targets/es/cualquier-dominio.md) para varios sitios web populares. Aquí hay algunos ejemplos de fuentes disponibles:

| Sitio web | Parámetro de origen | Parámetros requeridos         |
| --------- | ------------------- | ----------------------------- |
| Google    | `google_search`     | `query`                       |
| Amazon    | `amazon_search`     | `query`, `dominio` (opcional) |
| Walmart   | `walmart_search`    | `query`                       |
| Objetivo  | `target_search`     | `query`                       |
| Kroger    | `kroger_search`     | `query`, `store_id`           |
| Staples   | `staples_search`    | `query`                       |

Para usar un scraper específico, modifica el payload en la `scrape_website` función:

```python
# Example for Amazon search
payload = {
    "source": "amazon_search",
    "query": "smartphone",
    "domain": "com",
    "parse": True
}
```

## Configuración avanzada

### Gestión de contenido dinámico

Web Scraper API puede manejar [**renderizado de JavaScript**](/products/es/web-scraper-api/features/js-rendering-and-browser-control.md) añadiendo el `render` parámetro:

```python
payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html"
}
```

### Configuración del tipo de user agent

Puedes especificar distintos [**user agents**](/products/es/web-scraper-api/features/http-context-and-job-management/user-agent-type.md) para simular diferentes dispositivos:

```python
payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html",
    "user_agent_type": "mobile"
}
```

### Uso de parámetros específicos del destino

Muchos [**scrapers específicos por destino**](https://developers.oxylabs.io/api-targets/es/) admiten parámetros adicionales:

```python
# Example for Kroger with location parameters
payload = {
    "source": "kroger_search",
    "query": "organic milk",
    "store_id": "01100002",
    "fulfillment_type": "pickup"
}
```

## Manejo de errores

Implementa un manejo correcto de errores para aplicaciones de producción:

```python
try:
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload,
        timeout=60
    )
    response.raise_for_status()
    # Process response
except requests.exceptions.HTTPError as http_err:
    print(f"HTTP error occurred: {http_err}")
except requests.exceptions.ConnectionError as conn_err:
    print(f"Connection error occurred: {conn_err}")
except requests.exceptions.Timeout as timeout_err:
    print(f"Timeout error occurred: {timeout_err}")
except requests.exceptions.RequestException as req_err:
    print(f"An error occurred: {req_err}")
```


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://developers.oxylabs.io/products/es/web-scraper-api/solutions-for-ai-workflows/langchain.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.