Octoparse
Configure Oxylabs Dedicated Datacenter Proxies usando o Octoparse – um guia de integração Enterprise passo a passo.
Octoparse é uma ferramenta de extração de dados. Ela permite coletar dados públicos sem programação e contornar a maioria dos mecanismos anti-scraping ao habilitar a rotação automática de IP e um tempo de sessão estendido.
Para integrar o Octoparse com Oxylabs Dedicated Datacenter Proxies, siga os passos simples abaixo:
Etapa 1. Baixe, instale e depois abra o Octoparse.
Etapa 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Etapa 3. Digite a URL da página da web da qual você pretende extrair dados no URL Input e clique no Save botão. Usaremos Oxylabs scraping sandbox como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Etapa 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Etapa 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.
Por exemplo, se você quiser usar nosso Dedicated Datacenter Proxies, você pode usar:
IP/host: um endereço IP específico (por exemplo, 1.2.3.4)
Porta: 60000
Username: nome de usuário do proxy Oxylabs
Password: senha do usuário do proxy Oxylabs
Se você estiver usando IPs permitidos:
Porta: 65432
Para Dedicated Datacenter Proxies, você terá que escolher um endereço IP da lista adquirida.

Etapa 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando no botão Confirm e, depois disso, clique Save.
Os proxies agora estão configurados.
Como começar a fazer scraping usando o Octoparse
Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer coletar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Etapa 2. Configure a paginação para coletar várias páginas. Este site em particular usa páginas numeradas, levando você a escolher Next page button.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Etapa 4. Conclua a configuração do scraping e pressione ▶Run.

Etapa 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de scraping rodar até ser concluído. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.


Aqui está o resultado final em uma planilha.

Pronto – tudo está configurado e você já pode se concentrar em suas tarefas de web scraping com o Octoparse.
Isto foi útil?

