AI-Crawler
Aprenda a rastrear um site a partir de uma URL, encontrar páginas relevantes e extrair dados — tudo guiado pelo seu prompt em linguagem natural.
Visão geral
AI-Crawler é um aplicativo de extração de dados que usa algoritmos avançados de IA para rastrear um domínio fornecido. Ele identifica páginas relevantes com base em um prompt em linguagem natural e extrai dados estruturados em JSON ou Markdown saída.
Esta ferramenta low-code foi projetada para simplificar tarefas complexas de aquisição de dados, permitindo que desenvolvedores e cientistas de dados se concentrem na análise, em vez de construir e manter web scrapers personalizados. O rastreador web de IA oferece filtragem avançada, análise baseada em esquema e integração perfeita com vários pipelines de automação.
Você pode visualizar a ferramenta aqui e integrá-la aos seus fluxos de trabalho por meio dos nossos SDKs de Python/JavaScript, servidor MCP ou uma das nossas integrações de terceiros.
Principais recursos
Inicie um rastreamento a partir de qualquer URL fornecida: Comece sua extração de dados a partir de qualquer endereço web válido usando o AI Crawler como ponto de partida.
Prompt em linguagem natural: Defina suas necessidades de dados em inglês simples, e o agente de rastreamento interpretará o prompt para encontrar conteúdo relevante.
Seleção de URL assistida por IA: O rastreador web de IA explora o site de forma inteligente, identificando e priorizando as páginas mais alinhadas ao seu prompt.
Múltiplos formatos de saída: Escolha entre saída JSON estruturada ou Markdown para integração perfeita em automações ou fluxos de trabalho de IA.
Análise baseada em esquema: Para saída JSON, você pode definir um esquema de análise em linguagem natural para garantir que os dados extraídos sejam estruturados para se adequar à sua aplicação.
Uso
Para começar com o AI Crawler, siga este processo de quatro etapas:
Forneça uma URL inicial do site que você quer que o rastreador web explore.
Descreva o conteúdo que você quer recuperar usando um prompt em linguagem natural para o agente de rastreamento.
Selecione o formato de saída. Escolha entre JSON estruturado ou Markdown.
Se estiver usando saída JSON, forneça um esquema para orientar o rastreador web de IA na análise e estruturação dos dados extraídos.
Instalação
Para começar, certifique-se de que você tem acesso a uma chave de API (ou obtenha um teste gratuito com 1.000 créditos) e Python 3.10+ instalado. Você pode instalar o oxylabs-ai-studio pacote usando pip:
Exemplos de código (Python)
Os exemplos a seguir demonstram como usar o AiCrawler para realizar tarefas comuns de rastreamento.
Saiba mais sobre o SDK Python de AI-Crawler e Oxylabs AI Studio em nosso repositório PyPI. Você também pode conferir nosso SDK JavaScript do AI Studio guia para usuários de JS.
Parâmetros da solicitação
url
URL inicial para rastrear
–
user_prompt
Prompt em linguagem natural para orientar a extração
–
output_format
Formato de saída (json, markdown)
markdown
schema
Schema OpenAPI para extração estruturada (obrigatório para JSON)
–
render_javascript
Ativar renderização de JavaScript
False
return_sources_limit
Número máximo de fontes a retornar
25
geo_location
Localização do proxy no formato ISO2
–
– parâmetros obrigatórios
Exemplos de saída
AI-Crawler pode retornar uma saída analisada e pronta para uso, fácil de integrar em suas aplicações.
Veja como é a saída JSON:
Alternativamente, você pode usar output_format=”markdown” para receber resultados em Markdown em vez de JSON analisado.
Casos de uso práticos
AI-Crawler é uma ferramenta versátil para uma ampla gama de aplicações, incluindo:
Encontrar páginas de termos de serviço: Localize rapidamente páginas legais e de políticas em um domínio.
Coletar páginas de preços: Reúna detalhes de preços para análise de concorrentes ou pesquisa de mercado.
Recuperar todas as páginas “Sobre”: Encontre e extraia automaticamente informações da empresa de uma lista de sites.
Listar artigos de notícias relacionados à IA: Faça scraping de um site de notícias para հավաքhar e arquivar artigos sobre um tópico específico.
Atualizado
Isto foi útil?

