Octoparse

Integre o Octoparse com Oxylabs Dedicated ISP Proxies para extração de dados sem interrupções - configuração passo a passo dentro das definições da tarefa do Octoparse.

Octoparse é uma ferramenta de extração de dados. Ela permite coletar dados públicos sem programação e contornar a maioria dos mecanismos anti-scraping ao habilitar a rotação automática de IP e um tempo de sessão estendido.

Para integrar o Octoparse com Oxylabs Dedicated ISP Proxies você comprou por autoatendimento, siga os passos simples abaixo:

Etapa 1. Baixe, instale e depois abra o Octoparse.

Etapa 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Etapa 3. Digite a URL da página da web da qual você pretende extrair dados no URL Input e clique no Save botão. Usaremos Oxylabs scraping sandbox como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.

Etapa 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Etapa 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.

Para Dedicated ISP Proxies, você pode usar:

IP/host: disp.oxylabs.io

Porta: 8001

Username: user-USERNAME

Password: PASSWORD

Etapa 7. Configure o Switch intervalo dependendo de você estar usando IPs estáticos ou um Proxy Rotator.

Etapa 8. Salve as alterações clicando no botão Confirm e, depois disso, clique Save.

Os proxies agora estão configurados.

Como começar a fazer scraping usando o Octoparse

Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer coletar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.

Etapa 2. Configure a paginação para coletar várias páginas. Este site em particular usa páginas numeradas, levando você a escolher Next page button.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Etapa 4. Conclua a configuração do scraping e pressione ▶Run.

Etapa 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de scraping rodar até ser concluído. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.

Aqui está o resultado final em uma planilha.

Pronto – tudo está configurado e você já pode se concentrar em suas tarefas de web scraping com o Octoparse.

Isto foi útil?