LangChain

Use o framework LangChain junto com a Oxylabs Web Scraper API para coletar dados da web e alimentá-los em fluxos de trabalho de LLM — coletar, processar e analisar em um único pipeline.

A LangChain integração com o Oxylabs Web Scraper API permite coletar e processar dados da web por meio de um LLM (Modelo de Linguagem Grande) no mesmo fluxo de trabalho.

Visão geral

LangChain é uma estrutura para criar apps que usam LLMs junto com ferramentas, APIs e dados da web. Ele oferece suporte a Python e JavaScript. Use-o com Oxylabs Web Scraper API para:

  • Extrair dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização de JS

  • Processar resultados com um LLM no mesmo pipeline

  • Criar fluxos de trabalho ponta a ponta, da extração à saída com IA

Começando

Crie suas credenciais de usuário da API: cadastre-se para um teste gratuito ou compre o produto na painel da Oxylabs para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

Neste guia, usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

Configuração do ambiente

Crie um arquivo .env arquivo no diretório do seu projeto com as credenciais de usuário da API da Oxylabs e da OpenAI:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

Carregue essas variáveis de ambiente no seu script Python:

Métodos de integração

Há duas formas principais de integrar a Oxylabs Web Scraper API com o LangChain:

Usando o pacote langchain-oxylabs

Para consultas de pesquisa do Google, use o dedicado langchain-oxylabs pacote, que oferece uma integração pronta para uso:

Usando a Web Scraper API

Para acessar outros sites além da pesquisa do Google, você pode enviar diretamente uma requisição para a Web Scraper API:

Scrapers específicos por alvo

A Oxylabs fornece scrapers especializados para vários sites populares. Aqui estão alguns exemplos de fontes disponíveis:

Site
Parâmetro de origem
Parâmetros obrigatórios

Google

google_search

query

Amazon

amazon_search

query, domain (opcional)

Walmart

walmart_search

query

Destino

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

Para usar um scraper específico, modifique o payload na scrape_website função:

Configuração avançada

Tratamento de conteúdo dinâmico

A Web Scraper API pode lidar com renderização de JavaScript adicionando o render parâmetro:

Definindo o tipo de user agent

Você pode especificar diferentes agentes de usuário para simular diferentes dispositivos:

Usando parâmetros específicos do alvo

Muitos scrapers específicos por alvo oferecem suporte a parâmetros adicionais:

Tratamento de erros

Implemente o tratamento adequado de erros para aplicações em produção:

Atualizado

Isto foi útil?