LangChain

Use o framework LangChain junto com a Oxylabs Web Scraper API para puxar dados web e alimentá-los em fluxos de trabalho LLM—coletar, processar, analisar em um único pipeline.

O LangChain integração com o Oxylabs Web Scraper APIarrow-up-right permite que você colete e processe dados da web através de um LLM (Large Language Model) no mesmo fluxo de trabalho.

Visão geral

LangChain é uma estrutura para construir apps que usam LLMs juntamente com ferramentas, APIs e dados da web. Suporta tanto Python quanto JavaScript. Use-a com Oxylabs Web Scraper API arrow-up-rightpara:

  • Raspar dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização JS

  • Processar resultados com um LLM na mesma pipeline

  • Construir fluxos de trabalho de ponta a ponta desde a extração até a saída com IA

Primeiros passos

Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou compre o produto em Oxylabs dashboardarrow-up-right para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

circle-exclamation

Neste guia usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

Configuração do ambiente

Crie um .env arquivo no diretório do seu projeto com seu usuário da API Oxylabs e credenciais OpenAI:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

Carregue essas variáveis de ambiente no seu script Python:

Métodos de integração

Existem duas maneiras principais de integrar a Web Scraper API da Oxylabs com o LangChain:

Usando o pacote langchain-oxylabs

Para consultas de pesquisa no Google, use o langchain-oxylabsarrow-up-right pacote, que fornece uma integração pronta para uso:

Usando a Web Scraper API

Para acessar outros sites além do Google Search, você pode enviar diretamente requisições para a Web Scraper API:

Scrapers específicos por alvo

A Oxylabs fornece scrapers especializados para vários sites populares. Aqui estão alguns exemplos de fontes disponíveis:

Site
Parâmetro de origem
Parâmetros obrigatórios

Google

google_search

query

Amazon

amazon_search

query, domínio (opcional)

Walmart

walmart_search

query

Alvo

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

Para usar um scraper específico, modifique o payload em scrape_website função:

Configuração avançada

Tratando conteúdo dinâmico

A Web Scraper API pode lidar com renderização de JavaScript adicionando o render parâmetro:

Definindo o tipo de User-Agent

Você pode especificar diferentes user agents para simular dispositivos diferentes:

Usando parâmetros específicos do alvo

Muitos scrapers específicos por alvo suportam parâmetros adicionais:

Tratamento de erros

Implemente um tratamento de erros adequado para aplicações em produção:

Atualizado

Isto foi útil?