Octoparse
Integre o Octoparse com Residential Proxies da Oxylabs para scraping sem código. Configure rotação automática de IP e contorne mecanismos anti‑scraping.
Octoparse é uma ferramenta de extração de dados. Permite extrair dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.
Para integrar o Octoparse com a Oxylabs Residential Proxies, siga os passos abaixo:
Passo 1. Baixar, instale e então abra o Octoparse.
Passo 2. Crie uma nova tarefa clicando em +New botão no canto superior esquerdo e escolhendo Custom Task.

Passo 3. Digite a URL da página da qual pretende extrair dados em URL Input e clique no Salvar botão. Usaremos Oxylabs scraping sandbox como exemplo.

Passo 4. Após a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique Configure.

Passo 6. Ao clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.
Por exemplo, se quiser usar nosso Residential Proxies, você pode usar:
IP/host: pr.oxylabs.io
Porta: 7777
Nome de usuário: Nome de usuário do usuário de proxy da Oxylabs
Senha: Senha do usuário de proxy da Oxylabs
Você também pode usar entradas específicas por país. Por exemplo, inserir ie-pr.oxylabs.io em IP/host e 25000 em Porta adquirirá um nó de saída irlandês. Consulte esta página para uma lista completa de nós de entrada específicos por país ou, se precisar de uma sessão sticky, verifique aqui.

Passo 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Passo 8. Salve as alterações clicando no Confirm botão e depois clique em Salvar.
Os proxies agora estão configurados.
Como começar a extrair usando o Octoparse
Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, solicitando que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração da raspagem e pressione ▶Run.

Passo 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de raspagem rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você parar manualmente.

Passo 7. Extraia os dados coletados e selecione o formato do arquivo.


Aqui está o resultado final em uma planilha.

É isso — você está pronto e preparado para se concentrar em suas tarefas de web scraping com o Octoparse.
Atualizado
Isto foi útil?

