Octoparse
Integre o Octoparse com Mobile Proxies da Oxylabs para extração de dados sem código – um guia de configuração detalhado com configuração de proxy e walkthrough de scraping.
Octoparse é uma ferramenta de extração de dados. Ela permite raspar dados públicos sem programação e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.
Para integrar o Octoparse com a Oxylabs Mobile Proxies, siga os passos abaixo:
Passo 1. Página de Download, instale e então abra o Octoparse.
Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo e escolhendo Custom Task.

Passo 3. Digite a URL da página da qual pretende extrair dados no URL Input e clique no Salvar botão. Usaremos Oxylabs scraping sandbox como exemplo.

Passo 4. Após a URL selecionada carregar, vá em Task Settings > Anti-blocking.


Passo 5. Agora, marque Access websites via proxies, habilite Use my own proxies, e clique Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.
Por exemplo, se você quiser usar nosso Mobile Proxies, você pode usar:
IP/host: pr.oxylabs.io
Porta: 7777
Nome de usuário: nome de usuário do usuário de proxy da Oxylabs
Senha: senha do usuário de proxy da Oxylabs
Você também pode usar entradas específicas por país. Por exemplo, inserir ie-pr.oxylabs.io em IP/host e 25000 em Porta adquirirá um nó de saída irlandês. Consulte esta página para uma lista completa de nós de entrada específicos por país ou, se precisar de uma sessão sticky, verifique aqui.

Passo 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Passo 8. Salve as alterações clicando no Confirmar botão e, depois disso, clique em Salvar.
Os proxies agora estão configurados.
Como começar a raspar usando o Octoparse
Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.


Passo 2. Configure a paginação para raspar várias páginas. Este site em particular usa páginas numeradas, o que exige que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração de scraping e pressione ▶Run.

Passo 5. Escolha Executar no seu dispositivo com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de scraping rodar até a conclusão. O processo terminará quando a página final do produto for atingida ou quando você o parar manualmente.

Passo 7. Extraia os dados coletados e selecione o formato de arquivo.


Aqui está o resultado final em uma planilha.

É isso — você está tudo pronto e pode se concentrar nas suas tarefas de web scraping com o Octoparse.
Atualizado
Isto foi útil?

