Octoparse

Integre o Octoparse com os ISP Proxies da Oxylabs para extração de dados sem complicações - configuração passo a passo nas definições de tarefa do Octoparse.

Octoparse é uma ferramenta de extração de dados. Ela permite fazer scraping de dados públicos sem codificação e contornar a maioria dos mecanismos anti-scraping ao habilitar a rotação automática de IP e o tempo de sessão estendido.

Para integrar o Octoparse com os ISP Proxies da Oxylabs, siga os passos simples abaixo:

Etapa 1. Baixe, instale e depois abra o Octoparse.

Etapa 2. Crie uma nova tarefa clicando no botão +New no canto superior esquerdo e escolhendo Custom Task.

Etapa 3. Digite a URL da página da qual você pretende extrair dados em URL Input e clique no botão Save Vamos usar Oxylabs scraping sandbox como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.

Etapa 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Etapa 6. Quando você clicar no botão Configure , uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:porta:nome de usuário:senha.

Para ISP Proxies, você pode usar:

IP/host: isp.oxylabs.io

Porta: 8001

Você precisará escolher a porta atribuída a um endereço IP do lista de proxies, adquirido, que você pode encontrar no painel da Oxylabs. A 8001 porta selecionará o primeiro endereço IP da sua lista para todas as solicitações.

Nome de usuário: user-username

Senha: password

Não se esqueça de adicionar a parte user- ao seu nome de usuário.

Etapa 7. Configure o intervalo de Switch dependendo de você usar um tipo de sessão rotativa ou persistente.

Etapa 8. Salve as alterações clicando no botão Confirm e depois disso, clique em Save.

Os proxies agora estão configurados.

Como começar a fazer scraping usando o Octoparse

Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer fazer scraping. Para extrair todos os elementos da mesma categoria, escolha Selecionar todos os elementos semelhantes e especifique Texto.

Etapa 2. Configure a paginação para fazer scraping de várias páginas. Este site específico usa páginas numeradas, solicitando que você escolha Botão da próxima página.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Etapa 4. Conclua a configuração do scraping e pressione ▶Run.

Etapa 5. Escolha Executar no seu dispositivo com Standard Mode para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de scraping rodar até concluir. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.