For the complete documentation index, see llms.txt. This page is also available as Markdown.

Octoparse

Integre o Octoparse com ISP Proxies da Oxylabs para extração de dados sem interrupções - configuração passo a passo dentro das definições de tarefa do Octoparse.

Octoparse é uma ferramenta de extração de dados. Ela permite raspar dados públicos sem programar e lidar com a maioria dos desafios de scraping, ao habilitar rotação automática de IP e tempo de sessão estendido.

Para integrar o Octoparse com Oxylabs ISP Proxies, siga os passos simples abaixo:

Etapa 1. Baixar, instale e depois abra o Octoparse.

Etapa 2. Crie uma nova tarefa clicando no +Novo botão no canto superior esquerdo e escolhendo Tarefa personalizada.

Etapa 3. Digite a URL da página da web de onde você pretende extrair dados no Campo de entrada de URL e clique no Salvar botão. Usaremos sandbox de scraping da Oxylabs como exemplo.

Etapa 4. Depois que a URL selecionada carregar, vá para "Configurações da tarefa" e selecione "Anti-bloqueio".

Etapa 5. Agora, marque Acessar sites via Proxies, habilite Usar meus próprios Proxies, e clique em Configurar.

Etapa 6. Quando você clicar no Configurar botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: IP/host:port:username:password.

Para ISP Proxies, você pode usar:

IP/host: isp.oxylabs.io

Porta: 8001

Você precisará escolher a porta atribuída a um endereço IP da compra lista de proxies, que você pode encontrar no painel da Oxylabs. O 8001 porta selecionará o primeiro endereço IP da sua lista para todas as solicitações.

Nome de usuário: user-username

Senha: senha

Etapa 7. Configure o intervalo do Switch de acordo com o tipo de sessão que você usar: rotativa ou persistente.

Etapa 8. Salve as alterações clicando no Confirmar botão e, depois disso, clique em Salvar.

Os Proxies agora estão configurados.

Como começar a raspar usando o Octoparse

Etapa 1. Selecione os elementos desejados (títulos de videogames) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha Selecionar todos os elementos semelhantes e especifique Texto.

Etapa 2. Configure a paginação para raspar várias páginas. Este site específico usa páginas numeradas, o que faz você escolher Botão da próxima página.

Etapa 3. Escolha o botão exato no layout da página que abre a página seguinte – Avançar – para automatizar a paginação.

Etapa 4. Conclua a configuração da raspagem e pressione ▶Executar.

Etapa 5. Escolha Executar no seu dispositivo com Modo padrão para receber os dados como um arquivo no seu PC.

Etapa 6. Deixe o processo de raspagem ser executado até a conclusão. O processo terminará quando a página final do produto for alcançada ou quando você o parar manualmente.

Etapa 7. Extraia os dados coletados e selecione o formato do arquivo.

Aqui está o resultado final em uma planilha.

É isso – tudo está configurado e pronto para que você se concentre em suas tarefas de web scraping com o Octoparse.

Atualizado

Isto foi útil?