AI-Crawler

Aprenda como rastrear um site a partir de uma URL, encontrar páginas relevantes e extrair dados – tudo guiado pelo seu prompt em linguagem natural.

Visão geral

AI-Crawlerarrow-up-right é um aplicativo de extração de dados que usa algoritmos avançados de IA para rastrear um determinado domínio. Identifica páginas relevantes com base em um prompt em linguagem natural e extrai dados estruturados JSON ou Markdown de saída.

Esta ferramenta low-code foi projetada para simplificar tarefas complexas de aquisição de dados, permitindo que desenvolvedores e cientistas de dados se concentrem na análise em vez de construir e manter raspadores web personalizados. O rastreador web com IA oferece filtragem avançada, análise baseada em esquema e integração fluida com vários pipelines de automação.

Você pode visualizar a ferramenta aquiarrow-up-right e integrá-la em seus fluxos de trabalho por nossos SDKs Python/JavaScript, servidor MCP ou uma de nossas integrações de terceiros.

Principais recursos

  • Inicie um rastreamento a partir de qualquer URL fornecido: Comece sua extração de dados a partir de qualquer endereço web válido usando o AI Crawler como ponto de partida.

  • Prompt em linguagem natural: Defina suas necessidades de dados em inglês simples, e o agente de rastreamento interpretará o prompt para encontrar conteúdo relevante.

  • Seleção de URL assistida por IA: O rastreador web com IA explora o site de forma inteligente, identificando e priorizando as páginas mais alinhadas ao seu prompt.

  • Múltiplos formatos de saída: Escolha entre JSON estruturado ou saída em Markdown para integração perfeita em fluxos de trabalho de automação ou IA.

  • Análise baseada em esquema: Para saída JSON, você pode definir um esquema de parsing em linguagem natural para garantir que os dados extraídos sejam estruturados para se ajustar à sua aplicação.

Uso

Para começar com o AI Crawler, siga este processo de quatro etapas:

  1. Forneça uma URL inicial do site que você quer que o rastreador explore.

  2. Descreva o conteúdo que você deseja recuperar usando um prompt em linguagem natural para o agente de rastreamento.

  3. Selecione o formato de saída. Escolha entre JSON estruturado ou Markdown.

  4. Se estiver usando saída JSON, forneça um esquema para orientar o rastreador web com IA na análise e estruturação dos dados extraídos.

Instalação

Para começar, certifique-se de que você tenha acesso a uma chave de API (ou obtenha um teste gratuitoarrow-up-right com 1.000 créditos) e Python 3.10+ instalado. Você pode instalar o oxylabs-ai-studio pacote usando pip:

Exemplos de código (Python)

Os exemplos a seguir demonstram como usar o AiCrawler para executar tarefas comuns de rastreamento.

Saiba mais sobre AI-Crawler e o Oxylabs AI Studio Python SDK em nosso repositório PyPIarrow-up-right. Você também pode conferir nosso AI Studio JavaScript SDKarrow-up-right guia para usuários JS.

Parâmetros da requisição

Parâmetro
Descrição
Valor Padrão

url*

URL inicial para rastrear

user_prompt*

Prompt em linguagem natural para guiar a extração

output_format

Formato de saída (json, markdown)

markdown

schema

Esquema OpenAPI para extração estruturada (obrigatório para JSON)

render_javascript

Habilitar renderização de JavaScript

Falso

return_sources_limit

Número máximo de fontes a retornar

25

geo_location

Localização do proxy no formato ISO2

* – parâmetros obrigatórios

Exemplos de saída

AI-Crawler pode retornar saída analisada e pronta para uso que é fácil de integrar em suas aplicações.

Veja como fica sua saída JSON:

Alternativamente, você pode usar output_format=”markdown” para receber resultados em Markdown em vez de JSON analisado.

Casos de uso práticos

AI-Crawler é uma ferramenta versátil para uma ampla gama de aplicações, incluindo:

  1. Encontrar páginas de termos de serviço: Localize rapidamente páginas legais e de políticas em todo um domínio.

  2. Coletar páginas de preços: Colete detalhes de preços para análise de concorrência ou pesquisa de mercado.

  3. Recuperar todas as páginas “Sobre”: Encontre e extraia automaticamente informações da empresa a partir de uma lista de sites.

  4. Listar artigos de notícias relacionados à IA: Raspe um site de notícias para reunir e arquivar artigos sobre um tópico específico.

Atualizado

Isto foi útil?