LlamaIndex

Aproveite a integração com LlamaIndex na Oxylabs Web Scraper API para ingerir conteúdo online facilmente e construir workflows impulsionados por LLM.

A integração do LlamaIndex com o Oxylabs Web Scraper APIarrow-up-right permite que você raspagem e processe dados da web através de um LLM (Large Language Model) no mesmo fluxo de trabalho.

Visão geral

LlamaIndexarrow-up-right é uma estrutura de dados projetada para construir aplicações LLM com fontes de dados externas. Use-a com Oxylabs Web Scraper APIarrow-up-right para:

  • Raspar dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização JS

  • Processar resultados com um LLM no mesmo pipeline

  • Construir fluxos de trabalho de ponta a ponta da extração à saída com IA

Primeiros passos

Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou adquira o produto no painel da Oxylabsarrow-up-right para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

circle-info

Se você precisar de mais de um usuário de API para sua conta, entre em contato com nosso suporte ao cliente ou envie uma mensagem ao nosso suporte por chat ao vivo 24/7.

Configuração do ambiente

Neste guia usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

Crie um .env arquivo no diretório do seu projeto com suas credenciais da Oxylabs Web Scraper API e a chave da API do OpenAI:

OXYLABS_USERNAME=seu_nome_de_usuário_API
OXYLABS_PASSWORD=sua_senha_de_API
OPENAI_API_KEY=sua-chave-openai

Carregue essas variáveis de ambiente em seu script Python:

Métodos de integração

Existem duas formas de acessar conteúdo web via Web Scraper API no LlamaIndex:

Oxylabs Reader

O llama-index-readers-oxylabs módulo contém classes específicas que permitem raspar dados de várias fontes:

Fonte de dados da API
Classe Reader

Pesquisa web do Google

OxylabsGoogleSearchReader

Anúncios de pesquisa do Google

OxylabsGoogleAdsReader

Produto da Amazon

OxylabsAmazonProductReader

Busca na Amazon

OxylabsAmazonSearchReader

Avaliações da Amazon

OxylabsAmazonReviewsReader

Transcrição do YouTube

OxylabsYoutubeTranscriptReader

Por exemplo, você pode extrair resultados de pesquisa do Google:

Oxylabs Web Reader

Com a OxylabsWebReader classe, você pode extrair dados de qualquer URL:

Construindo um agente de busca com IA básico

Abaixo está um exemplo de um agente de IA simples que pode buscar no Google e responder perguntas:

Configuração avançada

Lidando com conteúdo dinâmico

A Web Scraper API pode lidar com renderização JavaScript:

Definindo o tipo de User-Agent

Você pode especificar diferentes user agents:

Usando parâmetros específicos do alvo

Muitos raspadores específicos de alvo suportam parâmetros adicionais:

Criando índices vetoriais

LlamaIndex é particularmente útil para construir índices vetoriais a partir de conteúdo web:

Atualizado

Isto foi útil?