LangChain

Use o framework LangChain junto com a Oxylabs Web Scraper API para puxar dados web e alimentá-los em workflows LLM—colete, processe e analise em um único pipeline.

O LangChain integração com o Oxylabs Web Scraper APIarrow-up-right permite coletar e processar dados da web por meio de um LLM (Large Language Model) no mesmo fluxo de trabalho.

Visão geral

LangChain é uma estrutura para construir aplicativos que usam LLMs juntamente com ferramentas, APIs e dados da web. Suporta Python e JavaScript. Use-o com Oxylabs Web Scraper API arrow-up-rightpara:

  • Raspar dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização JS

  • Processar resultados com um LLM no mesmo pipeline

  • Construir fluxos de trabalho de ponta a ponta da extração à saída com IA

Primeiros passos

Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou adquira o produto em painel da Oxylabsarrow-up-right para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

circle-exclamation

Neste guia usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

Configuração do ambiente

Crie um .env arquivo no diretório do seu projeto com seu usuário da API Oxylabs e credenciais OpenAI:

OXYLABS_USERNAME=seu-usuario
OXYLABS_PASSWORD=sua-senha
OPENAI_API_KEY=sua-chave-openai

Carregue essas variáveis de ambiente em seu script Python:

Métodos de integração

Existem duas maneiras principais de integrar a Web Scraper API da Oxylabs com o LangChain:

Usando o pacote langchain-oxylabs

Para consultas de pesquisa do Google, use o langchain-oxylabsarrow-up-right pacote, que fornece uma integração pronta para uso:

Usando a Web Scraper API

Para acessar outros sites além da pesquisa Google, você pode enviar solicitações diretamente para a Web Scraper API:

Scrapers específicos por alvo

A Oxylabs fornece scrapers especializados para vários sites populares. Aqui estão alguns exemplos de fontes disponíveis:

Site
Parâmetro de fonte
Parâmetros obrigatórios

Google

google_search

query

Amazon

amazon_search

query, domínio (opcional)

Walmart

walmart_search

query

Target

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

Para usar um scraper específico, modifique o payload em scrape_website função:

Configuração avançada

Lidando com conteúdo dinâmico

A Web Scraper API pode lidar com renderização JavaScript adicionando o render parâmetro:

Definindo o tipo de User-Agent

Você pode especificar diferentes user agents para simular diferentes dispositivos:

Usando parâmetros específicos do alvo

Muitos scrapers específicos por alvo suportam parâmetros adicionais:

Tratamento de erros

Implemente tratamento de erros adequado para aplicações de produção:

Atualizado

Isto foi útil?