Octoparse
Configure Datacenter Proxies no Octoparse, o scraper sem código. Evite facilmente bloqueios de IP durante extração automatizada de dados.
Octoparse é uma ferramenta de extração de dados. Permite raspar dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.
Para integrar o Octoparse com a Oxylabs Datacenter Proxies, siga os passos simples abaixo:
Passo 1. Baixe, instale e então abra o Octoparse.
Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo, e escolhendo Custom Task.

Passo 3. Digite a URL da página da web da qual você pretende extrair dados em URL Input e clique no Save botão. Usaremos Oxylabs scraping sandbox como exemplo.

Passo 4. Após a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:user-username:password.
Para Datacenter Proxies, você pode usar:
IP/host: dc.oxylabs.io
Port: 8001
Para o Plano Pay-per-IP assinatura, a porta corresponde ao número sequencial atribuído a um endereço IP da lista fornecida. Assim, a porta 8001 usa o primeiro endereço IP da sua lista.
Para o Plano Pay-per-traffic assinatura, a porta 8001 seleciona um endereço IP aleatoriamente, mas permanece consistente durante uma sessão.
Username: user-username (nome de usuário do seu usuário de proxy)
Senha: senha (senha do seu usuário de proxy)
Não esqueça de adicionar o user- parte do nome de usuário. Você também pode especificar geolocalização, como os EUA, na string de autenticação do usuário: user-USERNAME-country-US:PASSWORD. Para mais detalhes, veja nosso documentação.
Observe que as capturas de tela fornecidas neste guia mostram o processo de configuração usando Residential Proxies para fins ilustrativos; consulte as diretrizes específicas para Datacenter Proxies fornecidas no texto.

Passo 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando em Confirm botão e depois disso, clique em Save.
Os proxies estão agora configurados.
Como começar a raspar usando o Octoparse
Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, o que exige que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração do scraping e pressione ▶Run.

Passo 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de scraping rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Passo 7. Extraia os dados coletados e selecione o formato de arquivo.


Aqui está o resultado final em uma planilha.

É isso — você está pronto e configurado para se concentrar em suas tarefas de web scraping com o Octoparse.
Atualizado
Isto foi útil?

