Scheduler
Automatize jobs de raspagem recorrentes com o Scheduler gratuito na Web Scraper API. Defina a frequência com cron, especifique itens do job e horário de término, e monitore as execuções por meio de endpoints dedicados.
Scheduler é um recurso gratuito do Web Scraper API que permite automatizar tarefas recorrentes de scraping e parsing criando agendamentos.
Confira o tutorial em vídeo abaixo para saber mais sobre o Scheduler e como ele funciona.
Recomendamos usar o Scheduler junto com o Upload to Cloud Storage recurso. Dessa forma, você pode configurar seu agendamento e receber atualizações regulares de dados no seu armazenamento sem tentar buscar resultados do nosso sistema.
IMPORTANTE: O Scheduler é uma ferramenta poderosa que pode aumentar rapidamente sua conta de serviço. Recomendamos testá-lo com alguns itens de tarefa e um número limitado de repetições para garantir que você receba os dados corretos nos intervalos certos. Depois que isso estiver estabelecido, você pode interromper o agendamento de teste e criar um novo agendamento em maior escala.
Início Rápido
Ao criar um novo agendamento, siga as etapas simples abaixo.
Diga-nos com que frequência devemos repetir as tarefas enviando uma expressão de agendamento cron;
Dê-nos um conjunto de parâmetros de tarefa que devemos executar nos horários agendados;
Informe-nos quando parar enviando um horário de término.
Veja aqui para encontrar um exemplo de código para enviar um novo agendamento.
OBSERVAÇÃO: Você também pode baixar e importar esta coleção do Postman para testar todos os nossos endpoints do Scheduler. Novo no Postman? Saiba mais sobre esta ferramenta aqui.
Endpoints
O Scheduler tem vários endpoints que você pode usar para controlar o serviço:
Criar um novo agendamento
Visão geral
Use este endpoint para iniciar um novo agendamento.
Endpoint:
https://data.oxylabs.io/v1/schedulesMétodo:
POSTAutenticação:
BásicoCabeçalhos da solicitação:
Content-Type: application/json
Entrada
cron
-
itens
Lista de conjuntos de parâmetros de tarefa do Scraper API que devem ser executados como parte do agendamento.
-
end_time
O horário em que o agendamento deve parar de ser executado. OBS.: o horário de término é inclusivo.
-
- parâmetro obrigatório
O payload abaixo fará o Scheduler executar duas tarefas agendadas às 03:00 nas segundas-feiras até end_time (inclusive).
Saída
A resposta abaixo confirma que o agendamento foi criado com sucesso.
Obter todos os agendamentos
Visão geral
Use este endpoint para obter a lista de todos os agendamentos associados à sua conta de usuário.
Endpoint:
https://data.oxylabs.io/v1/schedulesMétodo:
GETAutenticação:
Básico
Saída
Este endpoint retorna a lista de todos os IDs de agendamento associados à conta de usuário que está fazendo a solicitação.
Veja a resposta de exemplo abaixo.
Obter informações das execuções
Visão geral
Use este endpoint para obter informações sobre uma lista de todas as execuções em um agendamento, com os metadados de cada tarefa e a taxa de sucesso de cada execução.
Endpoint:
https://data.oxylabs.io/v1/schedules/{id}/runsMétodo:
GETAutenticação:
Básico
Saída
O payload abaixo contém uma resposta de exemplo do endpoint /runs .
execuções
Uma coleção de objetos de execução que representam instâncias de execução de uma tarefa ou fluxo de trabalho agendado.
Vetor
execuções:run_id
Um identificador único para a instância específica da execução.
Inteiro
execuções:jobs
Uma coleção de objetos de tarefa que foram executados como parte desta execução.
Vetor
execuções:success_rate
A proporção de tarefas bem-sucedidas em relação ao total de tarefas nesta execução (varia de 0 a 1).
Número
execuções:jobs:id
Um identificador exclusivo da Oxylabs para a tarefa específica.
Inteiro
execuções:jobs:create_status_code
Código de status HTTP retornado quando a tarefa foi criada, indicando a aceitação inicial da solicitação da tarefa.
Inteiro
execuções:jobs:result_status
O status de execução da tarefa (por exemplo, "done", "failed", "pending").
String
execuções:jobs:created_at
Carimbo de data/hora em que a tarefa foi criada
String
execuções:jobs:result_created_at
Carimbo de data/hora em que a tarefa foi concluída e produziu um resultado
String
Obter tarefas agendadas
Visão geral
Use este endpoint para obter a lista de tarefas de scraping executadas como resultado da execução de um agendamento.
Endpoint:
https://data.oxylabs.io/v1/schedules/{id}/jobsMétodo:
GETAutenticação:
Básico
Saída
O payload abaixo contém uma resposta de exemplo de informações do agendamento.
Obter informações do agendamento
Visão geral
Use este endpoint para obter informações sobre um agendamento específico.
Endpoint:
https://data.oxylabs.io/v1/schedules/{id}Método:
GETAutenticação:
Básico
Saída
O payload abaixo contém uma resposta de exemplo de informações do agendamento.
schedule_id
O ID exclusivo do agendamento.
Inteiro
active
O agendamento está ativo agora?
Booleano
items_count
O número de itens (tarefas) no agendamento.
Inteiro
cron
A expressão cron associada ao agendamento.
String
end_time
O horário até o qual o agendamento deixará de ser repetido.
String
next_run_at
O horário em que o agendamento será executado da próxima vez.
String
links
Uma coleção de objetos de link que definem os endpoints de API disponíveis relacionados a um recurso de agendamento.
Vetor
links:rel
O identificador de relacionamento que explica a finalidade do link em relação ao recurso pai.
String
links:href
O caminho da URL para o endpoint da API. Representa a localização do recurso que pode ser acessada.
String
links:method
O método HTTP a ser usado ao acessar este endpoint.
String
stats
Contém estatísticas de criação e conclusão de tarefas.
Objeto JSON
stats:total_job_count
O número de itens (tarefas) no agendamento.
Inteiro
stats:job_create_outcomes
Contém estatísticas de criação de tarefas.
Array JSON
stats:job_create_outcomes:status_code
O código de status recebido em resposta a uma tentativa de executar o agendamento (criar uma tarefa de scraping/parsing).
Inteiro
stats:job_create_outcomes:job_count
O número de tentativas de criação de tarefas que resultaram nesse código de status específico.
Inteiro
stats:job_create_outcomes:ratio
A proporção entre o número de tentativas de criação de tarefas que resultaram nessa tentativa específica e o número total de tentativas de criação de tarefas.
Float
job_result_outcomes
Contém as estatísticas de resultado das tarefas de scraping/parsing executadas como parte do agendamento.
Array JSON
status
O status da tarefa. Valores possíveis: pending (a tarefa ainda está sendo processada), done (a tarefa foi concluída com sucesso), faulted (a tarefa falhou).
String
job_count
O número de tarefas que resultaram nesse particular status.
Inteiro
ratio
A proporção entre o número de tarefas com esse status específico e o número total de tarefas criadas.
Float
Desativar ou reativar um agendamento
Visão geral
Use este endpoint para ativar ou desativar um agendamento específico.
Endpoint:
https://data.oxylabs.io/v1/schedules/{id}/stateMétodo:
PUTAutenticação:
Básico
Entrada
Use este endpoint para parar ou reiniciar um agendamento.
Ao definir active até false, você pode interromper a execução de um agendamento específico.
Se você definir active até true, você pode reativar um agendamento anteriormente interrompido.
Saída
A resposta padrão é um corpo de resposta vazio com um 202 código de status.
Códigos de resposta da API
Para códigos de resposta da API, consulte API .
Atualizado
Isto foi útil?

