LlamaIndex
Aproveite a integração LlamaIndex com o Oxylabs Web Scraper API para ingerir conteúdo online facilmente e construir fluxos de trabalho impulsionados por LLM.
A integração do LlamaIndex com o Oxylabs Web Scraper API permite que você raspem e processe dados da web através de um LLM (Large Language Model) no mesmo fluxo de trabalho.
Visão geral
LlamaIndex é uma estrutura de dados projetada para construir aplicações LLM com fontes de dados externas. Use-a com Oxylabs Web Scraper API para:
Raspar dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização JS
Processar resultados com um LLM na mesma pipeline
Construir fluxos de trabalho de ponta a ponta desde a extração até a saída com IA
Primeiros passos
Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou adquira o produto no Oxylabs dashboard para criar suas credenciais de usuário da API (USERNAME e PASSWORD).
Configuração do ambiente
Neste guia usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:
pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-webCrie um .env arquivo no diretório do seu projeto com suas credenciais da Oxylabs Web Scraper API e a chave da API OpenAI:
OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-keyCarregue essas variáveis de ambiente no seu script Python:
Métodos de integração
Existem duas maneiras de acessar conteúdo da web via Web Scraper API no LlamaIndex:
Oxylabs Reader
O llama-index-readers-oxylabs módulo contém classes específicas que permitem raspar dados de várias fontes:
Pesquisa Web do Google
OxylabsGoogleSearchReader
Anúncios de Pesquisa do Google
OxylabsGoogleAdsReader
Produto Amazon
OxylabsAmazonProductReader
Busca na Amazon
OxylabsAmazonSearchReader
Avaliações da Amazon
OxylabsAmazonReviewsReader
Transcrição do YouTube
OxylabsYoutubeTranscriptReader
Por exemplo, você pode extrair resultados de pesquisa do Google:
Oxylabs Web Reader
Com o OxylabsWebReader classe, você pode extrair dados de qualquer URL:
Construindo um agente básico de busca com IA
Abaixo está um exemplo de um agente de IA simples que pode pesquisar no Google e responder perguntas:
Configuração avançada
Tratando conteúdo dinâmico
A Web Scraper API pode lidar com renderização JavaScript:
Definindo o tipo de User-Agent
Você pode especificar diferentes user agents:
Usando parâmetros específicos do alvo
Muitos scrapers específicos de alvo suportam parâmetros adicionais:
Criando índices vetoriais
LlamaIndex é particularmente útil para construir índices vetoriais a partir de conteúdo da web:
Atualizado
Isto foi útil?

