Octoparse
Configura Datacenter Proxies en el scraper sin código Octoparse. Evita fácilmente bloqueos de IP durante la extracción automatizada de datos.
Octoparse es una herramienta de extracción de datos. Te permite raspar datos públicos sin programar y eludir la mayoría de los mecanismos anti-scraping al habilitar la rotación automática de IP y tiempos de sesión extendidos.
Para integrar Octoparse con Oxylabs Datacenter Proxies, sigue los siguientes pasos sencillos:
Paso 1. Descargar, instala y luego abre Octoparse.
Paso 2. Crea una nueva tarea haciendo clic en el +New botón en la esquina superior izquierda, y eligiendo Custom Task.

Paso 3. Escribe la URL de la página web de la que deseas extraer datos en el URL Input y haz clic en el Save botón. Usaremos Oxylabs scraping sandbox como ejemplo.

Paso 4. Después de que se cargue la URL seleccionada, ve a Task Settings > Anti-blocking.


Paso 5. Ahora, marca Access websites via proxies, habilita Use my own proxies, y haz clic en Configure.

Paso 6. Cuando hagas clic en el Configure botón, aparecerá una ventana emergente. Especifica los detalles del proxy en el siguiente formato: IP/host:port:user-username:password.
Para Datacenter Proxies, puedes usar:
IP/host: dc.oxylabs.io
Port: 8001
Para la suscripción Pay-per-IP suscripción, el puerto corresponde al número secuencial asignado a una dirección IP de la lista proporcionada. Por tanto, el puerto 8001 usa la primera dirección IP de tu lista.
Para la Pay-per-traffic suscripción, el puerto 8001 selecciona aleatoriamente una dirección IP pero permanece consistente durante toda la sesión.
Username: user-username (el nombre de usuario de su usuario de proxy)
Contraseña: contraseña (la contraseña de su usuario de proxy)
Ten en cuenta que las capturas de pantalla de esta guía muestran el proceso de configuración usando Residential Proxies con fines ilustrativos; consulta las directrices específicas para Datacenter Proxies que se indican en el texto.

Paso 7. Configura el Switch intervalo dependiendo de si usas un tipo de sesión rotatoria o sticky.

Paso 8. Guarda los cambios haciendo clic en el Confirm botón y después de eso, haz clic en Save.
Los proxies ya están configurados.
Cómo empezar a raspar usando Octoparse
Paso 1. Selecciona los elementos deseados (títulos de videojuegos) que quieres raspar. Para extraer todos los elementos de la misma categoría, elige Select all similar elements y especifica Text.


Paso 2. Configura la paginación para raspar múltiples páginas. Este sitio web en particular usa páginas numeradas, lo que te pide elegir Next page button.

Paso 3. Elige el botón exacto en el diseño de la página que abre la siguiente página – Forward – para automatizar la paginación.

Paso 4. Completa la configuración del scraping y presiona ▶Run.

Paso 5. Elige Run on your device con Standard Mode para recibir los datos como un archivo en tu PC.

Paso 6. Deja que el proceso de scraping se ejecute hasta completarse. El proceso terminará cuando se llegue a la página final del producto o cuando lo detengas manualmente.

Paso 7. Extrae los datos recopilados y selecciona el formato de archivo.


Aquí está el resultado final en una hoja de cálculo.

Eso es todo: ya estás configurado y listo para centrarte en tus tareas de web scraping con Octoparse.
Última actualización
¿Te fue útil?

