# AI-Crawler

## Visão geral

[**AI-Crawler**](https://aistudio.oxylabs.io/apps/crawl) é um aplicativo de extração de dados que usa algoritmos avançados de IA para rastrear um domínio fornecido. Ele identifica páginas relevantes com base em um prompt em linguagem natural e extrai dados estruturados em **JSON** ou **Markdown** saída.

Esta ferramenta low-code foi projetada para simplificar tarefas complexas de aquisição de dados, permitindo que desenvolvedores e cientistas de dados se concentrem na análise, em vez de construir e manter web scrapers personalizados. O rastreador web de IA oferece filtragem avançada, análise baseada em esquema e integração perfeita com vários pipelines de automação.

Você pode visualizar a ferramenta [**aqui**](https://aistudio.oxylabs.io/apps/crawl) e integrá-la aos seus fluxos de trabalho por meio dos nossos SDKs de Python/JavaScript, servidor MCP ou uma das nossas integrações de terceiros.

## Principais recursos

* **Inicie um rastreamento a partir de qualquer URL fornecida:** Comece sua extração de dados a partir de qualquer endereço web válido usando o AI Crawler como ponto de partida.
* **Prompt em linguagem natural:** Defina suas necessidades de dados em inglês simples, e o agente de rastreamento interpretará o prompt para encontrar conteúdo relevante.
* **Seleção de URL assistida por IA:** O rastreador web de IA explora o site de forma inteligente, identificando e priorizando as páginas mais alinhadas ao seu prompt.
* **Múltiplos formatos de saída:** Escolha entre saída JSON estruturada ou Markdown para integração perfeita em automações ou fluxos de trabalho de IA.
* **Análise baseada em esquema:** Para saída JSON, você pode definir um esquema de análise em linguagem natural para garantir que os dados extraídos sejam estruturados para se adequar à sua aplicação.

## Uso

Para começar com o AI Crawler, siga este processo de quatro etapas:

1. **Forneça uma URL inicial** do site que você quer que o rastreador web explore.
2. **Descreva o conteúdo** que você quer recuperar usando um prompt em linguagem natural para o agente de rastreamento.
3. **Selecione o formato de saída.** Escolha entre JSON estruturado ou Markdown.
4. **Se estiver usando saída JSON,** forneça um esquema para orientar o rastreador web de IA na análise e estruturação dos dados extraídos.

### Instalação

Para começar, certifique-se de que você tem acesso a uma chave de API (ou [obtenha um teste gratuito](https://aistudio.oxylabs.io/register) com **1.000 créditos**) e `Python 3.10+` instalado. Você pode instalar o `oxylabs-ai-studio` pacote usando pip:

```sh
pip install oxylabs-ai-studio
```

### Exemplos de código (Python)

Os exemplos a seguir demonstram como usar o `AiCrawler` para realizar tarefas comuns de rastreamento.

```python
from oxylabs_ai_studio.apps.ai_crawler import AiCrawler
import json

# Inicialize o AI Crawler com sua chave de API
crawler = AiCrawler(api_key="your_api_key")

# Gere um esquema automaticamente a partir de linguagem natural
schema = crawler.generate_schema(prompt="want to parse name, platform, price")
print(f"Generated schema: {schema}")

# Rastreie um site e extraia dados estruturados
url = "https://sandbox.oxylabs.io/products"
result = crawler.crawl(
    url=url,
    user_prompt="Find all Halo games for Xbox",
    output_format="json",
    schema=schema,
    render_javascript=False,
    return_sources_limit=3,
    geo_location="US",
)

# Imprima a saída do rastreamento como JSON
print("Results:")
print(json.dumps(result.data, indent=2))
```

Saiba mais sobre o SDK Python de AI-Crawler e Oxylabs AI Studio em nosso [repositório PyPI](https://pypi.org/project/oxylabs-ai-studio/). Você também pode conferir nosso [SDK JavaScript do AI Studio](https://github.com/oxylabs/oxylabs-ai-studio-js) guia para usuários de JS.

### Parâmetros da solicitação

| Parâmetro                                                  | Descrição                                                        | Valor padrão |
| ---------------------------------------------------------- | ---------------------------------------------------------------- | ------------ |
| <mark style="background-color:green;">`url`</mark>         | URL inicial para rastrear                                        | –            |
| <mark style="background-color:green;">`user_prompt`</mark> | Prompt em linguagem natural para orientar a extração             | –            |
| `output_format`                                            | Formato de saída (`json`, `markdown`)                            | `markdown`   |
| `schema`                                                   | Schema OpenAPI para extração estruturada (obrigatório para JSON) | –            |
| `render_javascript`                                        | Ativar renderização de JavaScript                                | `False`      |
| `return_sources_limit`                                     | Número máximo de fontes a retornar                               | `25`         |
| `geo_location`                                             | Localização do proxy no formato ISO2                             | –            |

&#x20;    – parâmetros obrigatórios

#### Exemplos de saída

`AI-Crawler` pode retornar uma saída analisada e pronta para uso, fácil de integrar em suas aplicações.

Veja como é a saída JSON:

```json
[
  {
    "data": {
      "items": [
        {
          "name": "Halo: Reach",
          "platform": "Xbox platform",
          "price": 84.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/141"
  },
  {
    "data": {
      "items": [
        {
          "name": "Halo 3",
          "platform": "Xbox platform",
          "price": 81.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/28"
  },
  {
    "data": {
      "items": [
        {
          "name": "Halo: Combat Evolved",
          "platform": "Xbox platform",
          "price": 87.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/6"
  }
]
```

Alternativamente, você pode usar `output_format=”markdown”` para receber resultados em Markdown em vez de JSON analisado.

### Casos de uso práticos

AI-Crawler é uma ferramenta versátil para uma ampla gama de aplicações, incluindo:

1. **Encontrar páginas de termos de serviço:** Localize rapidamente páginas legais e de políticas em um domínio.
2. **Coletar páginas de preços:** Reúna detalhes de preços para análise de concorrentes ou pesquisa de mercado.
3. **Recuperar todas as páginas “Sobre”:** Encontre e extraia automaticamente informações da empresa de uma lista de sites.
4. **Listar artigos de notícias relacionados à IA:** Faça scraping de um site de notícias para հավաքhar e arquivar artigos sobre um tópico específico.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://developers.oxylabs.io/products/pt-br/ai-studio/ai-crawler.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
