Octoparse
Configure Dedicated Datacenter Proxies da Oxylabs usando Octoparse – um guia de integração Enterprise passo a passo.
Octoparse é uma ferramenta de extração de dados. Ela permite raspar dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ativando rotação automática de IP e tempo de sessão estendido.
Para integrar o Octoparse com a Oxylabs Dedicated Datacenter Proxies, siga os passos simples abaixo:
Passo 1. Baixar, instale e depois abra o Octoparse.
Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Passo 3. Digite a URL da página da web da qual pretende extrair dados no URL Input e clique no Salvar botão. Usaremos Oxylabs scraping sandbox como exemplo.

Passo 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.
Por exemplo, se você quiser usar nosso Dedicated Datacenter Proxies, você pode usar:
IP/host: um endereço IP específico (por exemplo, 1.2.3.4)
Porta: 60000
Nome de usuário: Oxylabs proxy user’s username
Senha: Oxylabs proxy user’s password
Se você estiver usando IPs na whitelist:
Porta: 65432
Para Dedicated Datacenter Proxies, você terá que escolher um endereço IP da acquired list.

Observe que as capturas de tela fornecidas neste guia mostram o processo de configuração usando Residential Proxies para fins ilustrativos; consulte as diretrizes específicas para Enterprise Dedicated Datacenter Proxies fornecidas no texto.
Etapa 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando no Confirm botão e, depois disso, clique em Salvar.
Os proxies agora estão configurados.
Como começar a raspar usando o Octoparse
Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, solicitando que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração da raspagem e pressione ▶Run.

Passo 5. Escolher Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de raspagem rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você interrompê-lo manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.


Aqui está o resultado final em uma planilha.

É isso — você está pronto e pode se concentrar nas suas tarefas de web scraping com o Octoparse.
Atualizado
Isto foi útil?

