Octoparse

Configure Dedicated Datacenter Proxies da Oxylabs usando Octoparse – um guia de integração Enterprise passo a passo.

Octoparsearrow-up-right é uma ferramenta de extração de dados. Ela permite raspar dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ativando rotação automática de IP e tempo de sessão estendido.

Para integrar o Octoparse com a Oxylabs Dedicated Datacenter Proxiesarrow-up-right, siga os passos simples abaixo:

Passo 1. Baixararrow-up-right, instale e depois abra o Octoparse.

Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Passo 3. Digite a URL da página da web da qual pretende extrair dados no URL Input e clique no Salvar botão. Usaremos Oxylabs scraping sandboxarrow-up-right como exemplo.

Passo 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.

Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.

Por exemplo, se você quiser usar nosso Dedicated Datacenter Proxies, você pode usar:

IP/host: um endereço IP específico (por exemplo, 1.2.3.4)

Porta: 60000

Nome de usuário: Oxylabs proxy user’s username

Senha: Oxylabs proxy user’s password

Se você estiver usando IPs na whitelist:

Porta: 65432

circle-info

Para Dedicated Datacenter Proxies, você terá que escolher um endereço IP da acquired list.

circle-exclamation

Etapa 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando no Confirm botão e, depois disso, clique em Salvar.

Os proxies agora estão configurados.

Como começar a raspar usando o Octoparse

Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.

Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, solicitando que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração da raspagem e pressione ▶Run.

Passo 5. Escolher Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de raspagem rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você interrompê-lo manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.

Aqui está o resultado final em uma planilha.

É isso — você está pronto e pode se concentrar nas suas tarefas de web scraping com o Octoparse.

Atualizado

Isto foi útil?