Octoparse
Configura Datacenter Proxies en el web scraper sin código de Octoparse. Evita fácilmente los bloqueos de IP durante la extracción automática de datos.
Octoparse es una herramienta de extracción de datos. Te permite extraer datos públicos sin programar y evitar la mayoría de los mecanismos antiescraping al habilitar la rotación automática de IP y un tiempo de sesión prolongado.
Para integrar Octoparse con Oxylabs Datacenter Proxies, sigue los sencillos pasos a continuación:
Paso 1. Descarga, instálalo y luego abre Octoparse.
Paso 2. Crea una nueva tarea haciendo clic en el +New botón en la esquina superior izquierda y seleccionando Custom Task.

Paso 3. Escribe la URL de la página web de la que deseas extraer datos en el URL Input y haz clic en el Guardar botón. Usaremos Oxylabs scraping sandbox como ejemplo.

Paso 4. Después de que se cargue la URL seleccionada, ve a Task Settings > Anti-blocking.


Paso 5. Ahora, marca Access websites via proxies, habilita Use my own proxies, y haz clic en Configure.

Paso 6. Cuando hagas clic en el Configure botón, aparecerá una ventana emergente. Especifica los detalles del proxy en el siguiente formato: IP/host:port:user-username:password.
Para Datacenter Proxies, puedes usar:
IP/host: dc.oxylabs.io
Puerto: 8001
Para la suscripción de pago por IP suscripción, el puerto corresponde al número secuencial asignado a una dirección IP de la lista proporcionada. Por lo tanto, el puerto 8001 usa la primera dirección IP de tu lista.
Para la suscripción de pago por tráfico , el puerto 8001 selecciona aleatoriamente una dirección IP, pero se mantiene constante durante toda una sesión.
Nombre de usuario: user-username (el nombre de usuario de tu usuario proxy)
Contraseña: password (la contraseña de tu usuario proxy)
No olvides añadir la parte user- prefijo al nombre de usuario. También puedes especificar la geolocalización, como EE. UU., en la cadena de autenticación de usuario: user-USERNAME-country-US:PASSWORD. Para más detalles, consulta nuestro documentación.

Paso 7. Configura el intervalo de Switch según si usas un tipo de sesión rotativa o persistente.

Paso 8. Guarda los cambios haciendo clic en el Confirm botón y, después, haz clic en Guardar.
Los proxies ya están configurados.
Cómo empezar a extraer datos usando Octoparse
Paso 1. Selecciona los elementos deseados (títulos de videojuegos) que quieres extraer. Para extraer todos los elementos de la misma categoría, elige Seleccionar todos los elementos similares y especifica Texto.


Paso 2. Configura la paginación para extraer varias páginas. Este sitio web en particular usa páginas numeradas, lo que te pide elegir Botón de la página siguiente.

Paso 3. Elige el botón exacto en el diseño de la página que abre la siguiente página – Adelante – para automatizar la paginación.

Paso 4. Completa la configuración de la extracción y pulsa ▶Run.

Paso 5. Elige Ejecutar en tu dispositivo con Standard Mode para recibir los datos como un archivo en tu PC.

Paso 6. Deja que el proceso de extracción se ejecute hasta completarse. El proceso terminará cuando se alcance la página final del producto o cuando lo detengas manualmente.

Paso 7. Extrae los datos recopilados y selecciona el formato de archivo.


Aquí está el resultado final en una hoja de cálculo.

Eso es todo: ya está todo configurado y listo para que te concentres en tus tareas de web scraping con Octoparse.
Última actualización
¿Te fue útil?

