Octoparse
Integre o Octoparse com Oxylabs Residential Proxies para web scraping sem código. Configure a rotação automática de IP e contorne mecanismos anti-scraping.
Octoparse é uma ferramenta de extração de dados. Ela permite coletar dados públicos sem programação e contornar a maioria dos mecanismos anti-scraping ao habilitar a rotação automática de IP e um tempo de sessão estendido.
Para integrar o Octoparse com Oxylabs Residential Proxies, siga as etapas abaixo:
Etapa 1. Baixe, instale e depois abra o Octoparse.
Etapa 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Etapa 3. Digite a URL da página da web da qual você pretende extrair dados no URL Input e clique no Save botão. Usaremos Oxylabs scraping sandbox como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Etapa 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Etapa 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.
Por exemplo, se você quiser usar nosso Residential Proxies, você pode usar:
IP/host: pr.oxylabs.io
Porta: 7777
Username: nome de usuário do proxy Oxylabs
Password: senha do usuário do proxy Oxylabs
Você também pode usar entradas específicas por país. Por exemplo, inserir ie-pr.oxylabs.io em IP/host e 25000 em Porta obterá um nó de saída irlandês. Consulte esta página para uma lista completa de nós de entrada específicos por país ou, se você precisar de uma sessão sticky, consulte aqui.

Etapa 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando no botão Confirm e, depois disso, clique Save.
Os proxies agora estão configurados.
Como começar a fazer scraping usando o Octoparse
Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer coletar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Etapa 2. Configure a paginação para coletar várias páginas. Este site em particular usa páginas numeradas, levando você a escolher Next page button.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Etapa 4. Conclua a configuração do scraping e pressione ▶Run.

Etapa 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de scraping rodar até ser concluído. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.


Aqui está o resultado final em uma planilha.

Pronto – tudo está configurado e você já pode se concentrar em suas tarefas de web scraping com o Octoparse.
Isto foi útil?

