LangChain

Use o framework LangChain junto com a Oxylabs Web Scraper API para coletar dados da web e alimentá-los em fluxos de trabalho de LLM — coletar, processar, analisar em um único pipeline.

O LangChain integração com o Oxylabs Web Scraper API permite coletar e processar dados da web por meio de um LLM (Large Language Model) no mesmo fluxo de trabalho.

Visão geral

LangChain é uma estrutura para construir aplicativos que usam LLMs juntamente com ferramentas, APIs e dados da web. Suporta Python e JavaScript. Use-o com Oxylabs Web Scraper API para:

Raspar dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização JS
Processar resultados com um LLM no mesmo pipeline
Construir fluxos de trabalho de ponta a ponta da extração à saída com IA

Primeiros passos

Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou adquira o produto em painel da Oxylabs para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

Se você precisar de mais de um usuário de API para sua conta, entre em contato com nosso suporte ao cliente ou envie uma mensagem ao nosso suporte por chat ao vivo 24/7.

Neste guia usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

Configuração do ambiente

Crie um .env arquivo no diretório do seu projeto com seu usuário da API Oxylabs e credenciais OpenAI:

OXYLABS_USERNAME=seu-usuario
OXYLABS_PASSWORD=sua-senha
OPENAI_API_KEY=sua-chave-openai

Carregue essas variáveis de ambiente em seu script Python:

import os
from dotenv import load_dotenv

load_dotenv()

Métodos de integração

Existem duas maneiras principais de integrar a Web Scraper API da Oxylabs com o LangChain:

Usando o pacote langchain-oxylabs

Para consultas de pesquisa do Google, use o langchain-oxylabs pacote, que fornece uma integração pronta para uso:

import os
from dotenv import load_dotenv
from langchain.chat_models import init_chat_model
from langgraph.prebuilt import create_react_agent
from langchain_oxylabs import OxylabsSearchAPIWrapper, OxylabsSearchRun

load_dotenv()

# Inicialize seu modelo LLM preferido
llm = init_chat_model(
    "gpt-4o-mini",
    model_provider="openai",
    api_key=os.getenv("OPENAI_API_KEY")
)

# Inicialize a ferramenta de pesquisa Google
search = OxylabsSearchRun(
    wrapper=OxylabsSearchAPIWrapper(
        oxylabs_username=os.getenv("OXYLABS_USERNAME"),
        oxylabs_password=os.getenv("OXYLABS_PASSWORD")
    )
)

# Crie um agente que use a ferramenta de pesquisa Google
agent = create_react_agent(llm, [search])

# Exemplo de uso
user_input = "When and why did the Maya civilization collapse?"
response = agent.invoke({"messages": user_input})
print(response["messages"][-1].content)

Usando a Web Scraper API

Para acessar outros sites além da pesquisa Google, você pode enviar solicitações diretamente para a Web Scraper API:

import os
import requests
from dotenv import load_dotenv
from langchain_openai import OpenAI
from langchain_core.prompts import PromptTemplate

load_dotenv()

def scrape_website(url):
    """Raspe o site usando a Oxylabs Web Scraper API"""
    payload = {
        "source": "universal",
        "url": url,
        "parse": True
    }
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload
    )
    
    if response.status_code == 200:
        data = response.json()
        content = data["results"][0]["content"]
        return str(content)
    else:
        print(f"Falha ao raspar o site: {response.text}")
        return None

def process_content(content):
    """Processe o conteúdo raspado usando o LangChain"""
    if not content:
        print("Nenhum conteúdo para processar.")
        return None
        
    prompt = PromptTemplate.from_template(
        "Analise o conteúdo do site a seguir e resuma os pontos principais: {content}"
    )
    chain = prompt | OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
    result = chain.invoke({"content": content})
    return result

def main(url):
    print("Raspando o site...")
    scraped_content = scrape_website(url)
    if scraped_content:
        print("Processando o conteúdo raspado com o LangChain...")
        analysis = process_content(scraped_content)
        print("\nAnálise Processada:\n", analysis)
    else:
        print("Nenhum conteúdo raspado.")

if __name__ == "__main__":
    url = "https://sandbox.oxylabs.io/products/1"
    main(url)

Scrapers específicos por alvo

A Oxylabs fornece scrapers especializados para vários sites populares. Aqui estão alguns exemplos de fontes disponíveis:

Site

Parâmetro de fonte

Parâmetros obrigatórios

Google

google_search

query

Amazon

amazon_search

query, domínio (opcional)

Walmart

walmart_search

query

Target

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

Para usar um scraper específico, modifique o payload em scrape_website função:

# Exemplo para pesquisa no Amazon
payload = {
    "source": "amazon_search",
    "query": "smartphone",
    "domain": "com",
    "parse": True
}

Configuração avançada

Lidando com conteúdo dinâmico

A Web Scraper API pode lidar com renderização JavaScript adicionando o render parâmetro:

payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html"
}

Definindo o tipo de User-Agent

Você pode especificar diferentes user agents para simular diferentes dispositivos:

payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html",
    "user_agent_type": "mobile"
}

Usando parâmetros específicos do alvo

Muitos scrapers específicos por alvo suportam parâmetros adicionais:

# Exemplo para Kroger com parâmetros de localização
payload = {
    "source": "kroger_search",
    "query": "organic milk",
    "store_id": "01100002",
    "fulfillment_type": "pickup"
}

Tratamento de erros

Implemente tratamento de erros adequado para aplicações de produção:

try:
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload,
        timeout=60
    )
    response.raise_for_status()
    # Processar resposta
except requests.exceptions.HTTPError as http_err:
    print(f"Ocorreu um erro HTTP: {http_err}")
except requests.exceptions.ConnectionError as conn_err:
    print(f"Ocorreu um erro de conexão: {conn_err}")
except requests.exceptions.Timeout as timeout_err:
    print(f"Ocorreu um erro de tempo limite: {timeout_err}")
except requests.exceptions.RequestException as req_err:
    print(f"Ocorreu um erro: {req_err}")

AnteriorModel Context Protocol (MCP)PróximoLlamaIndex

Atualizado há 1 mês

Isto foi útil?

Boa tarde

hashtagVisão geral

hashtagPrimeiros passos

hashtagConfiguração do ambiente

hashtagMétodos de integração

hashtagUsando o pacote langchain-oxylabs

hashtagUsando a Web Scraper API

hashtagScrapers específicos por alvo

hashtagConfiguração avançada

hashtagLidando com conteúdo dinâmico

hashtagDefinindo o tipo de User-Agent

hashtagUsando parâmetros específicos do alvo

hashtagTratamento de erros

Visão geral

Primeiros passos

Configuração do ambiente

Métodos de integração

Usando o pacote langchain-oxylabs

Usando a Web Scraper API

Scrapers específicos por alvo

Configuração avançada

Lidando com conteúdo dinâmico

Definindo o tipo de User-Agent

Usando parâmetros específicos do alvo

Tratamento de erros