Octoparse

Configure Datacenter Proxies no Octoparse, o scraper sem código. Evite facilmente bloqueios de IP durante extração automatizada de dados.

Octoparsearrow-up-right é uma ferramenta de extração de dados. Permite raspar dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.

Para integrar o Octoparse com a Oxylabs Datacenter Proxiesarrow-up-right, siga os passos simples abaixo:

Passo 1. Baixearrow-up-right, instale e então abra o Octoparse.

Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo, e escolhendo Custom Task.

Passo 3. Digite a URL da página da web da qual você pretende extrair dados em URL Input e clique no Save botão. Usaremos Oxylabs scraping sandboxarrow-up-right como exemplo.

Passo 4. Após a URL selecionada carregar, vá para Task Settings > Anti-blocking.

Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:user-username:password.

Para Datacenter Proxies, você pode usar:

IP/host: dc.oxylabs.io

Port: 8001

circle-exclamation

Username: user-username (nome de usuário do seu usuário de proxy)

Senha: senha (senha do seu usuário de proxy)

circle-info

Não esqueça de adicionar o user- parte do nome de usuário. Você também pode especificar geolocalização, como os EUA, na string de autenticação do usuário: user-USERNAME-country-US:PASSWORD. Para mais detalhes, veja nosso documentaçãoarrow-up-right.

circle-exclamation

Passo 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando em Confirm botão e depois disso, clique em Save.

Os proxies estão agora configurados.

Como começar a raspar usando o Octoparse

Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.

Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, o que exige que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração do scraping e pressione ▶Run.

Passo 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de scraping rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Passo 7. Extraia os dados coletados e selecione o formato de arquivo.

Aqui está o resultado final em uma planilha.

É isso — você está pronto e configurado para se concentrar em suas tarefas de web scraping com o Octoparse.

Atualizado

Isto foi útil?