Métodos de integração
Explore os três métodos de integração para a Oxylabs Web Scraper API (Realtime, Push-Pull, Proxy Endpoint) e aprenda como eles diferem em envio de jobs, formato e fluxo de trabalho.
Isto foi útil?
Explore os três métodos de integração para a Oxylabs Web Scraper API (Realtime, Push-Pull, Proxy Endpoint) e aprenda como eles diferem em envio de jobs, formato e fluxo de trabalho.
Web Scraper API oferece suporte a três métodos de integração, cada um com seus benefícios exclusivos:
Realtime. Este método é síncrono. Isso significa que, ao enviar sua solicitação de envio de job, você terá que manter a conexão aberta até que finalizemos com sucesso seu job ou retornemos um erro. Este método de integração é o melhor para extração de dados em tempo real quando você precisa de uma resposta imediata. Você pode enviar payloads JSON com parâmetros de scraping e parsing, enquanto a API lida automaticamente com o gerenciamento de proxies, tentativas e sistemas anti-bot.
Push-Pull (suporta consultas em lote). Este método de integração é assíncrono. Isso significa que, ao enviar seu job, retornaremos rapidamente um JSON com as informações do seu job, incluindo as URLs para baixar o resultado/verificar o status do job. Assim que terminarmos de processar seu job, enviaremos POST uma notificação de conclusão do job para o seu servidor, e então você poderá baixar os resultados. Este método de integração também permite enviar resultados diretamente para o seu (AWS S3 ou Google Cloud Storage).
Push-Pull é nosso método de integração recomendado para lidar de forma confiável com grandes volumes de dados.
Proxy Endpoint. Este método também é síncrono (como Realtime), mas em vez de usar nosso serviço via uma interface RESTful, você pode usar nosso endpoint como um proxy. Use Proxy Endpoint se você já usou Proxies antes e só quiser obter conteúdo desbloqueado de nós.
O Time-To-Live (TTL) para todas as conexões da API é definido como 150 segundos. É importante observar que, em casos raros, as conexões podem expirar antes de receber uma resposta. Fatores como carga do sistema ou envios de job extremamente complexos podem contribuir para timeouts.
Isto foi útil?
Isto foi útil?

