Octoparse
Integra Octoparse con Oxylabs Dedicatd ISP Proxies para una extracción de datos fluida: configuración paso a paso dentro de los ajustes de tareas de Octoparse.
Octoparse es una herramienta de extracción de datos. Te permite extraer datos públicos sin programar y eludir la mayoría de los mecanismos anti-scraping al habilitar la rotación automática de IP y un tiempo de sesión ampliado.
Para integrar Octoparse con Oxylabs Dedicated ISP Proxies si has comprado mediante autoservicio, sigue los sencillos pasos a continuación:
Paso 1. Descargarinstala y luego abre Octoparse.
Paso 2. Crea una nueva tarea haciendo clic en el +New botón en la esquina superior izquierda y seleccionando Custom Task.

Paso 3. Escribe la URL de la página web de la que deseas extraer datos en el URL Input y haz clic en el Guardar botón. Usaremos Oxylabs scraping sandbox como ejemplo.

Paso 4. Después de que se cargue la URL seleccionada, ve a Configuración de la tarea > Antibloqueo.


Paso 5. Ahora, marca Acceder a sitios web mediante proxies, habilita Usar mis propios proxies, y haz clic en Configurar.

Paso 6. Cuando hagas clic en el Configurar botón, aparecerá una ventana emergente. Especifica los detalles del proxy en el siguiente formato: IP/host:port:username:password.
Para Dedicated ISP Proxies, puedes usar:
IP/host: disp.oxylabs.io
Puerto: 8001
Nombre de usuario: user-USERNAME
Contraseña: PASSWORD
El número de puerto indica qué dirección IP de tu lista de proxies se utilizará. Usa el puerto 8000 para automático rotación de IP de proxy.

Asegúrate de añadir la parte user- a tu nombre de usuario.
Paso 7. Configura el Switch intervalo según si estás usando IPs estáticas o un Proxy Rotator.

Paso 8. Guarda los cambios haciendo clic en el Confirmar botón y, después de eso, haz clic Guardar.
Los proxies ya están configurados.
Cómo empezar a hacer scraping con Octoparse
Paso 1. Selecciona los elementos deseados (títulos de videojuegos) que quieres extraer. Para extraer todos los elementos de la misma categoría, elige Seleccionar todos los elementos similares y especifica Texto.


Paso 2. Configura la paginación para extraer varias páginas. Este sitio web en particular usa páginas numeradas, lo que te lleva a elegir botón de la página siguiente.

Paso 3. Elige el botón exacto en el diseño de la página que abre la siguiente página – Avanzar – para automatizar la paginación.

Paso 4. Completa la configuración de scraping y presiona ▶Ejecutar.

Paso 5. Elige Ejecutar en tu dispositivo con Standard Mode para recibir los datos como un archivo en tu PC.

Paso 6. Deja que el proceso de scraping se ejecute hasta completarse. El proceso terminará cuando se llegue a la página final del producto o cuando lo detengas manualmente.

Paso 7. Extrae los datos recopilados y selecciona el formato del archivo.


Aquí está el resultado final en una hoja de cálculo.

Eso es todo: ya está todo configurado y listo para que te concentres en tus tareas de web scraping con Octoparse.
¿Te fue útil?

