For the complete documentation index, see llms.txt. This page is also available as Markdown.

AI-Crawler

Aprenda a rastrear um site a partir de uma URL, encontrar páginas relevantes e extrair dados — tudo guiado pelo seu prompt em linguagem natural.

Visão geral

AI-Crawler é um aplicativo de extração de dados que usa algoritmos avançados de IA para rastrear um domínio fornecido. Ele identifica páginas relevantes com base em um prompt em linguagem natural e extrai dados estruturados em JSON ou Markdown saída.

Esta ferramenta low-code foi projetada para simplificar tarefas complexas de aquisição de dados, permitindo que desenvolvedores e cientistas de dados se concentrem na análise, em vez de construir e manter web scrapers personalizados. O rastreador web de IA oferece filtragem avançada, análise baseada em esquema e integração perfeita com vários pipelines de automação.

Você pode visualizar a ferramenta aqui e integrá-la aos seus fluxos de trabalho por meio dos nossos SDKs de Python/JavaScript, servidor MCP ou uma das nossas integrações de terceiros.

Principais recursos

  • Inicie um rastreamento a partir de qualquer URL fornecida: Comece sua extração de dados a partir de qualquer endereço web válido usando o AI Crawler como ponto de partida.

  • Prompt em linguagem natural: Defina suas necessidades de dados em inglês simples, e o agente de rastreamento interpretará o prompt para encontrar conteúdo relevante.

  • Seleção de URL assistida por IA: O rastreador web de IA explora o site de forma inteligente, identificando e priorizando as páginas mais alinhadas ao seu prompt.

  • Múltiplos formatos de saída: Escolha entre saída JSON estruturada ou Markdown para integração perfeita em automações ou fluxos de trabalho de IA.

  • Análise baseada em esquema: Para saída JSON, você pode definir um esquema de análise em linguagem natural para garantir que os dados extraídos sejam estruturados para se adequar à sua aplicação.

Uso

Para começar com o AI Crawler, siga este processo de quatro etapas:

  1. Forneça uma URL inicial do site que você quer que o rastreador web explore.

  2. Descreva o conteúdo que você quer recuperar usando um prompt em linguagem natural para o agente de rastreamento.

  3. Selecione o formato de saída. Escolha entre JSON estruturado ou Markdown.

  4. Se estiver usando saída JSON, forneça um esquema para orientar o rastreador web de IA na análise e estruturação dos dados extraídos.

Instalação

Para começar, certifique-se de que você tem acesso a uma chave de API (ou obtenha um teste gratuito com 1.000 créditos) e Python 3.10+ instalado. Você pode instalar o oxylabs-ai-studio pacote usando pip:

Exemplos de código (Python)

Os exemplos a seguir demonstram como usar o AiCrawler para realizar tarefas comuns de rastreamento.

Saiba mais sobre o SDK Python de AI-Crawler e Oxylabs AI Studio em nosso repositório PyPI. Você também pode conferir nosso SDK JavaScript do AI Studio guia para usuários de JS.

Parâmetros da solicitação

Parâmetro
Descrição
Valor padrão

url

URL inicial para rastrear

user_prompt

Prompt em linguagem natural para orientar a extração

output_format

Formato de saída (json, markdown)

markdown

schema

Schema OpenAPI para extração estruturada (obrigatório para JSON)

render_javascript

Ativar renderização de JavaScript

False

return_sources_limit

Número máximo de fontes a retornar

25

geo_location

Localização do proxy no formato ISO2

– parâmetros obrigatórios

Exemplos de saída

AI-Crawler pode retornar uma saída analisada e pronta para uso, fácil de integrar em suas aplicações.

Veja como é a saída JSON:

Alternativamente, você pode usar output_format=”markdown” para receber resultados em Markdown em vez de JSON analisado.

Casos de uso práticos

AI-Crawler é uma ferramenta versátil para uma ampla gama de aplicações, incluindo:

  1. Encontrar páginas de termos de serviço: Localize rapidamente páginas legais e de políticas em um domínio.

  2. Coletar páginas de preços: Reúna detalhes de preços para análise de concorrentes ou pesquisa de mercado.

  3. Recuperar todas as páginas “Sobre”: Encontre e extraia automaticamente informações da empresa de uma lista de sites.

  4. Listar artigos de notícias relacionados à IA: Faça scraping de um site de notícias para հավաքhar e arquivar artigos sobre um tópico específico.

Atualizado

Isto foi útil?