Octoparse
Integra Octoparse con los Mobile Proxies de Oxylabs para extracción de datos sin código: guía detallada de configuración con ajustes de proxy y recorrido de scraping.
Octoparse es una herramienta de extracción de datos. Te permite raspar datos públicos sin programar y sortear la mayoría de los mecanismos anti-scraping al habilitar la rotación automática de IP y sesiones prolongadas.
Para integrar Octoparse con Oxylabs Mobile Proxies, sigue los pasos a continuación:
Paso 1. Descargue, instala y luego abre Octoparse.
Paso 2. Crea una nueva tarea haciendo clic en el +New botón en la esquina superior izquierda y eligiendo Custom Task.

Paso 3. Escribe la URL de la página web de la que pretendes extraer datos en el URL Input y haz clic en el Guardar botón. Usaremos Oxylabs scraping sandbox como ejemplo.

Paso 4. Después de que se cargue la URL seleccionada, ve a Task Settings > Anti-blocking.


Paso 5. Ahora, marca Access websites via proxies, habilita Use my own proxies, y haz clic Configurar.

Paso 6. Cuando hagas clic en el Configurar botón, aparecerá una ventana emergente. Especifica los detalles del proxy en el siguiente formato: IP/host:port:username:password.
Por ejemplo, si quieres usar nuestro Mobile Proxies, puedes usar:
IP/host: pr.oxylabs.io
Puerto: 7777
Nombre de usuario: nombre de usuario del usuario proxy de Oxylabs
Contraseña: contraseña del usuario proxy de Oxylabs

Paso 7. Configura el Switch intervalo dependiendo de si usas un tipo de sesión rotativa o sticky.

Paso 8. Guarda los cambios haciendo clic en el Confirmar botón y después, haz clic en Guardar.
Los proxies ya están configurados.
Cómo empezar a raspar usando Octoparse
Paso 1. Selecciona los elementos deseados (títulos de videojuegos) que quieras raspar. Para extraer todos los elementos de la misma categoría, elige Select all similar elements y especifica Text.


Paso 2. Configura la paginación para raspar múltiples páginas. Este sitio en particular usa páginas numeradas, lo que te pedirá elegir Next page button.

Paso 3. Elige el botón exacto en el diseño de la página que abre la siguiente página – Forward – para automatizar la paginación.

Paso 4. Completa la configuración del scraping y presiona ▶Run.

Paso 5. Elige Ejecutar en tu dispositivo con Standard Mode para recibir los datos como un archivo en tu PC.

Paso 6. Deja que el proceso de scraping se ejecute hasta completarse. El proceso terminará cuando se alcance la página final del producto o cuando lo detengas manualmente.

Paso 7. Extrae los datos recopilados y selecciona el formato de archivo.


Aquí está el resultado final en una hoja de cálculo.

Eso es todo: ya estás listo y preparado para centrarte en tus tareas de web scraping con Octoparse.
Última actualización
¿Te fue útil?

