Octoparse
Integre o Octoparse com os Dedicated Datacenter Self-Service Proxies da Oxylabs para extração de dados sem complicações – uma configuração detalhada nas definições de tarefa do Octoparse.
Octoparse é uma ferramenta de extração de dados. Ela permite fazer scraping de dados públicos sem codificação e contornar a maioria dos mecanismos anti-scraping ao habilitar a rotação automática de IP e o tempo de sessão estendido.
Para integrar o Octoparse com Oxylabs Dedicated Datacenter Proxies, siga os passos simples abaixo:
Etapa 1. Baixe, instale e depois abra o Octoparse.
Etapa 2. Crie uma nova tarefa clicando no botão +New no canto superior esquerdo e escolhendo Custom Task.

Etapa 3. Digite a URL da página da qual você pretende extrair dados em URL Input e clique no botão Save Vamos usar Oxylabs scraping sandbox como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para Task Settings > Anti-blocking.


Etapa 5. Agora, marque Access websites via proxies, ative Use my own proxies, e clique em Configure.

Etapa 6. Quando você clicar no botão Configure , uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:user-username:password.
Para Dedicated Datacenter Proxies, você pode usar:
IP/host: ddc.oxylabs.io
Porta: 8001
Você precisará escolher uma porta atribuída a um endereço IP da lista de proxies, comprada, que você pode encontrar no painel da Oxylabs.
Nome de usuário: user-username
Senha: password
Não se esqueça de adicionar a parte user- ao seu nome de usuário.

Etapa 7. Configure o intervalo de Switch dependendo de você usar um tipo de sessão rotativa ou persistente.

Etapa 8. Salve as alterações clicando no botão Confirm e depois disso, clique em Save.
Os proxies agora estão configurados.
Como começar a fazer scraping usando o Octoparse
Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer fazer scraping. Para extrair todos os elementos da mesma categoria, escolha Selecionar todos os elementos semelhantes e especifique Texto.


Etapa 2. Configure a paginação para fazer scraping de várias páginas. Este site específico usa páginas numeradas, solicitando que você escolha Botão da próxima página.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Forward – para automatizar a paginação.

Etapa 4. Conclua a configuração do scraping e pressione ▶Run.

Etapa 5. Escolha Executar no seu dispositivo com Standard Mode para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de scraping rodar até concluir. O processo terminará quando a página final do produto for alcançada ou quando você o interromper manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.


Aqui está o resultado final em uma planilha.

É isso – tudo está configurado e você está pronto para se concentrar nas suas tarefas de web scraping com o Octoparse.
Atualizado
Isto foi útil?

