For the complete documentation index, see llms.txt. This page is also available as Markdown.

Scheduler

Automatize jobs de raspagem recorrentes com o Scheduler gratuito na Web Scraper API. Defina a frequência com cron, especifique itens do job e horário de término, e monitore as execuções por meio de endpoints dedicados.

Scheduler é um recurso gratuito do Web Scraper API que permite automatizar tarefas recorrentes de scraping e parsing criando agendamentos.

Confira o tutorial em vídeo abaixo para saber mais sobre o Scheduler e como ele funciona.

Guia passo a passo para automatizar suas tarefas recorrentes de scraping usando o Scheduler

Recomendamos usar o Scheduler junto com o Upload to Cloud Storage recurso. Dessa forma, você pode configurar seu agendamento e receber atualizações regulares de dados no seu armazenamento sem tentar buscar resultados do nosso sistema.

Início Rápido

Ao criar um novo agendamento, siga as etapas simples abaixo.

  1. Diga-nos com que frequência devemos repetir as tarefas enviando uma expressão de agendamento cron;

  2. Dê-nos um conjunto de parâmetros de tarefa que devemos executar nos horários agendados;

  3. Informe-nos quando parar enviando um horário de término.

Veja aqui para encontrar um exemplo de código para enviar um novo agendamento.

OBSERVAÇÃO: Você também pode baixar e importar esta coleção do Postman para testar todos os nossos endpoints do Scheduler. Novo no Postman? Saiba mais sobre esta ferramenta aqui.

Endpoints

O Scheduler tem vários endpoints que você pode usar para controlar o serviço:

Criar um novo agendamento

Visão geral

Use este endpoint para iniciar um novo agendamento.

  • Endpoint: https://data.oxylabs.io/v1/schedules

  • Método: POST

  • Autenticação: Básico

  • Cabeçalhos da solicitação: Content-Type: application/json

Entrada

Parâmetro
Descrição
Valor padrão

cron

Expressão de agendamento cron. Ela determina com que frequência o agendamento enviado será executado. Leia mais aqui e aqui.

-

itens

Lista de conjuntos de parâmetros de tarefa do Scraper API que devem ser executados como parte do agendamento.

-

end_time

O horário em que o agendamento deve parar de ser executado. OBS.: o horário de término é inclusivo.

-

- parâmetro obrigatório

OBSERVAÇÃO: Para orientações sobre como montar conjuntos de parâmetros de tarefa para a itens parte do seu payload do Scheduler, consulte a página de documentação do scraper específico que você deseja usar (por exemplo, Google, Amazon, etc.).

O payload abaixo fará o Scheduler executar duas tarefas agendadas às 03:00 nas segundas-feiras até end_time (inclusive).

Saída

A resposta abaixo confirma que o agendamento foi criado com sucesso.

Obter todos os agendamentos

Visão geral

Use este endpoint para obter a lista de todos os agendamentos associados à sua conta de usuário.

  • Endpoint: https://data.oxylabs.io/v1/schedules

  • Método: GET

  • Autenticação: Básico

Saída

Este endpoint retorna a lista de todos os IDs de agendamento associados à conta de usuário que está fazendo a solicitação.

Veja a resposta de exemplo abaixo.

Obter informações das execuções

Visão geral

Use este endpoint para obter informações sobre uma lista de todas as execuções em um agendamento, com os metadados de cada tarefa e a taxa de sucesso de cada execução.

  • Endpoint: https://data.oxylabs.io/v1/schedules/{id}/runs

  • Método: GET

  • Autenticação: Básico

Saída

O payload abaixo contém uma resposta de exemplo do endpoint /runs .

Chave
Descrição
Tipo

execuções

Uma coleção de objetos de execução que representam instâncias de execução de uma tarefa ou fluxo de trabalho agendado.

Vetor

execuções:run_id

Um identificador único para a instância específica da execução.

Inteiro

execuções:jobs

Uma coleção de objetos de tarefa que foram executados como parte desta execução.

Vetor

execuções:success_rate

A proporção de tarefas bem-sucedidas em relação ao total de tarefas nesta execução (varia de 0 a 1).

Número

execuções:jobs:id

Um identificador exclusivo da Oxylabs para a tarefa específica.

Inteiro

execuções:jobs:create_status_code

Código de status HTTP retornado quando a tarefa foi criada, indicando a aceitação inicial da solicitação da tarefa.

Inteiro

execuções:jobs:result_status

O status de execução da tarefa (por exemplo, "done", "failed", "pending").

String

execuções:jobs:created_at

Carimbo de data/hora em que a tarefa foi criada

String

execuções:jobs:result_created_at

Carimbo de data/hora em que a tarefa foi concluída e produziu um resultado

String

Obter tarefas agendadas

Visão geral

Use este endpoint para obter a lista de tarefas de scraping executadas como resultado da execução de um agendamento.

  • Endpoint: https://data.oxylabs.io/v1/schedules/{id}/jobs

  • Método: GET

  • Autenticação: Básico

Saída

O payload abaixo contém uma resposta de exemplo de informações do agendamento.

Obter informações do agendamento

Visão geral

Use este endpoint para obter informações sobre um agendamento específico.

  • Endpoint: https://data.oxylabs.io/v1/schedules/{id}

  • Método: GET

  • Autenticação: Básico

Saída

O payload abaixo contém uma resposta de exemplo de informações do agendamento.

Chave
Descrição
Tipo

schedule_id

O ID exclusivo do agendamento.

Inteiro

active

O agendamento está ativo agora?

Booleano

items_count

O número de itens (tarefas) no agendamento.

Inteiro

cron

A expressão cron associada ao agendamento.

String

end_time

O horário até o qual o agendamento deixará de ser repetido.

String

next_run_at

O horário em que o agendamento será executado da próxima vez.

String

links

Uma coleção de objetos de link que definem os endpoints de API disponíveis relacionados a um recurso de agendamento.

Vetor

links:rel

O identificador de relacionamento que explica a finalidade do link em relação ao recurso pai.

String

links:href

O caminho da URL para o endpoint da API. Representa a localização do recurso que pode ser acessada.

String

links:method

O método HTTP a ser usado ao acessar este endpoint.

String

stats

Contém estatísticas de criação e conclusão de tarefas.

Objeto JSON

stats:total_job_count

O número de itens (tarefas) no agendamento.

Inteiro

stats:job_create_outcomes

Contém estatísticas de criação de tarefas.

Array JSON

stats:job_create_outcomes:status_code

O código de status recebido em resposta a uma tentativa de executar o agendamento (criar uma tarefa de scraping/parsing).

Inteiro

stats:job_create_outcomes:job_count

O número de tentativas de criação de tarefas que resultaram nesse código de status específico.

Inteiro

stats:job_create_outcomes:ratio

A proporção entre o número de tentativas de criação de tarefas que resultaram nessa tentativa específica e o número total de tentativas de criação de tarefas.

Float

job_result_outcomes

Contém as estatísticas de resultado das tarefas de scraping/parsing executadas como parte do agendamento.

Array JSON

status

O status da tarefa. Valores possíveis: pending (a tarefa ainda está sendo processada), done (a tarefa foi concluída com sucesso), faulted (a tarefa falhou).

String

job_count

O número de tarefas que resultaram nesse particular status.

Inteiro

ratio

A proporção entre o número de tarefas com esse status específico e o número total de tarefas criadas.

Float

Desativar ou reativar um agendamento

Visão geral

Use este endpoint para ativar ou desativar um agendamento específico.

  • Endpoint: https://data.oxylabs.io/v1/schedules/{id}/state

  • Método: PUT

  • Autenticação: Básico

Entrada

Use este endpoint para parar ou reiniciar um agendamento.

Ao definir active até false, você pode interromper a execução de um agendamento específico.

Se você definir active até true, você pode reativar um agendamento anteriormente interrompido.

Saída

A resposta padrão é um corpo de resposta vazio com um 202 código de status.

Códigos de resposta da API

Para códigos de resposta da API, consulte API .

Atualizado

Isto foi útil?