AI-Crawler
Aprenda como rastrear um site a partir de uma URL, encontrar páginas relevantes e extrair dados – tudo guiado pelo seu prompt em linguagem natural.
Visão geral
AI-Crawler é um aplicativo de extração de dados que usa algoritmos avançados de IA para rastrear um determinado domínio. Identifica páginas relevantes com base em um prompt em linguagem natural e extrai dados estruturados JSON ou Markdown de saída.
Esta ferramenta low-code foi projetada para simplificar tarefas complexas de aquisição de dados, permitindo que desenvolvedores e cientistas de dados se concentrem na análise em vez de construir e manter raspadores web personalizados. O rastreador web com IA oferece filtragem avançada, análise baseada em esquema e integração fluida com vários pipelines de automação.
Você pode visualizar a ferramenta aqui e integrá-la em seus fluxos de trabalho por nossos SDKs Python/JavaScript, servidor MCP ou uma de nossas integrações de terceiros.
Principais recursos
Inicie um rastreamento a partir de qualquer URL fornecido: Comece sua extração de dados a partir de qualquer endereço web válido usando o AI Crawler como ponto de partida.
Prompt em linguagem natural: Defina suas necessidades de dados em inglês simples, e o agente de rastreamento interpretará o prompt para encontrar conteúdo relevante.
Seleção de URL assistida por IA: O rastreador web com IA explora o site de forma inteligente, identificando e priorizando as páginas mais alinhadas ao seu prompt.
Múltiplos formatos de saída: Escolha entre JSON estruturado ou saída em Markdown para integração perfeita em fluxos de trabalho de automação ou IA.
Análise baseada em esquema: Para saída JSON, você pode definir um esquema de parsing em linguagem natural para garantir que os dados extraídos sejam estruturados para se ajustar à sua aplicação.
Uso
Para começar com o AI Crawler, siga este processo de quatro etapas:
Forneça uma URL inicial do site que você quer que o rastreador explore.
Descreva o conteúdo que você deseja recuperar usando um prompt em linguagem natural para o agente de rastreamento.
Selecione o formato de saída. Escolha entre JSON estruturado ou Markdown.
Se estiver usando saída JSON, forneça um esquema para orientar o rastreador web com IA na análise e estruturação dos dados extraídos.
Instalação
Para começar, certifique-se de que você tenha acesso a uma chave de API (ou obtenha um teste gratuito com 1.000 créditos) e Python 3.10+ instalado. Você pode instalar o oxylabs-ai-studio pacote usando pip:
Exemplos de código (Python)
Os exemplos a seguir demonstram como usar o AiCrawler para executar tarefas comuns de rastreamento.
Saiba mais sobre AI-Crawler e o Oxylabs AI Studio Python SDK em nosso repositório PyPI. Você também pode conferir nosso AI Studio JavaScript SDK guia para usuários JS.
Parâmetros da requisição
url*
URL inicial para rastrear
–
user_prompt*
Prompt em linguagem natural para guiar a extração
–
output_format
Formato de saída (json, markdown)
markdown
schema
Esquema OpenAPI para extração estruturada (obrigatório para JSON)
–
render_javascript
Habilitar renderização de JavaScript
Falso
return_sources_limit
Número máximo de fontes a retornar
25
geo_location
Localização do proxy no formato ISO2
–
* – parâmetros obrigatórios
Exemplos de saída
AI-Crawler pode retornar saída analisada e pronta para uso que é fácil de integrar em suas aplicações.
Veja como fica sua saída JSON:
Alternativamente, você pode usar output_format=”markdown” para receber resultados em Markdown em vez de JSON analisado.
Casos de uso práticos
AI-Crawler é uma ferramenta versátil para uma ampla gama de aplicações, incluindo:
Encontrar páginas de termos de serviço: Localize rapidamente páginas legais e de políticas em todo um domínio.
Coletar páginas de preços: Colete detalhes de preços para análise de concorrência ou pesquisa de mercado.
Recuperar todas as páginas “Sobre”: Encontre e extraia automaticamente informações da empresa a partir de uma lista de sites.
Listar artigos de notícias relacionados à IA: Raspe um site de notícias para reunir e arquivar artigos sobre um tópico específico.
Atualizado
Isto foi útil?

