LlamaIndex

Aproveite a integração LlamaIndex com a Oxylabs Web Scraper API para ingerir facilmente conteúdo online e construir fluxos de trabalho orientados por LLM.

A integração do LlamaIndex com a Oxylabs Web Scraper API permite que você extraia e processe dados da web por meio de um LLM (Large Language Model) no mesmo fluxo de trabalho.

Visão geral

LlamaIndex é um framework de dados projetado para criar aplicações de LLM com fontes de dados externas. Use-o com Oxylabs Web Scraper API para:

  • Extrair dados estruturados sem lidar com CAPTCHAs, bloqueios de IP ou renderização de JS

  • Processar resultados com um LLM no mesmo pipeline

  • Criar fluxos de trabalho ponta a ponta, da extração à saída com IA

Começando

Crie suas credenciais de usuário da API: inscreva-se para um teste gratuito ou compre o produto na painel da Oxylabs para criar suas credenciais de usuário da API (USERNAME e PASSWORD).

Se você precisar de mais de um usuário de API para a sua conta, entre em contato com nosso suporte ao cliente ou envie uma mensagem para nosso suporte por chat ao vivo 24/7.

Configuração do ambiente

Neste guia, usaremos a linguagem de programação Python. Instale as bibliotecas necessárias usando pip:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

Crie um arquivo .env no diretório do seu projeto com suas credenciais da Oxylabs Web Scraper API e a chave da API da OpenAI:

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

Carregue essas variáveis de ambiente no seu script Python:

Métodos de integração

Há duas maneiras de acessar conteúdo da web via Web Scraper API no LlamaIndex:

Leitor da Oxylabs

A llama-index-readers-oxylabs o módulo contém classes específicas que permitem extrair dados de várias fontes:

Fonte de dados da API
Classe do leitor

Pesquisa na web do Google

OxylabsGoogleSearchReader

Anúncios da Pesquisa do Google

OxylabsGoogleAdsReader

Produto da Amazon

OxylabsAmazonProductReader

Pesquisa na Amazon

OxylabsAmazonSearchReader

Avaliações da Amazon

OxylabsAmazonReviewsReader

Transcrição do YouTube

OxylabsYoutubeTranscriptReader

Por exemplo, você pode extrair resultados de pesquisa do Google:

Leitor Web da Oxylabs

Com a OxylabsWebReader class, você pode extrair dados de qualquer URL:

Criando um agente básico de busca com IA

Abaixo está um exemplo de um agente de IA simples que pode pesquisar no Google e responder perguntas:

Configuração avançada

Tratamento de conteúdo dinâmico

A Web Scraper API pode lidar com a renderização de JavaScript:

Definindo o tipo de user agent

Você pode especificar diferentes user agents:

Usando parâmetros específicos do alvo

Muitos scrapers específicos do alvo oferecem suporte a parâmetros adicionais:

Criando índices vetoriais

LlamaIndex é especialmente útil para criar índices vetoriais a partir de conteúdo da web:

Atualizado

Isto foi útil?