Octoparse

Integre o Octoparse com ISP Proxies da Oxylabs para extração de dados sem atritos - configuração passo a passo dentro das configurações de tarefa do Octoparse.

Octoparsearrow-up-right é uma ferramenta de extração de dados. Permite raspar dados públicos sem programar e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.

Para integrar o Octoparse com os ISP Proxies da Oxylabs, siga os passos simples abaixo:

Passo 1. Baixearrow-up-right, instale e então abra o Octoparse.

Passo 2. Crie uma nova tarefa clicando no +New botão no canto superior esquerdo, e escolhendo Custom Task.

Passo 3. Digite a URL da página da web da qual você pretende extrair dados em URL Input e clique no Save botão. Usaremos Oxylabs scraping sandboxarrow-up-right como exemplo.

Passo 4. Após a URL selecionada carregar, vá para Task Settings > Anti-blocking.

Passo 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Passo 6. Quando você clicar no Configure botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:porta:usuário:senha.

Para Para ISP Proxies, você pode usar:

IP/host: isp.oxylabs.io

Port: 8001

circle-info

Você precisará escolher a porta atribuída a um endereço IP do lista de proxiesarrow-up-right, comprado, que você pode encontrar no painel da Oxylabs. A 8001 porta selecionará o primeiro endereço IP da sua lista para todas as requisições.

Username: user-username

Senha: senha

circle-exclamation

Passo 7. Configure o Switch intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

Etapa 8. Salve as alterações clicando em Confirm botão e depois disso, clique em Save.

Os proxies estão agora configurados.

Como começar a raspar usando o Octoparse

Passo 1. Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Select all similar elements e especifique Text.

Passo 2. Configure a paginação para raspar múltiplas páginas. Este site em particular usa páginas numeradas, o que exige que você escolha Next page button.

Passo 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Passo 4. Complete a configuração do scraping e pressione ▶Run.

Passo 5. Escolha Run on your device com Standard Mode para receber os dados como um arquivo no seu PC.

Passo 6. Deixe o processo de scraping rodar até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Passo 7. Extraia os dados coletados e selecione o formato de arquivo.

Aqui está o resultado final em uma planilha.

É isso — você está pronto e configurado para se concentrar em suas tarefas de web scraping com o Octoparse.

Atualizado

Isto foi útil?