For the complete documentation index, see llms.txt. This page is also available as Markdown.

Octoparse

Integra Octoparse con Oxylabs Mobile Proxies para extracción de datos sin código: una guía detallada de configuración con configuración de proxy y recorrido de scraping.

Octoparse es una herramienta de extracción de datos. Le permite extraer datos públicos sin codificar y manejar la mayoría de los desafíos de scraping al habilitar la rotación automática de IP y un tiempo de sesión extendido.

Para integrar Octoparse con Oxylabs Mobile Proxies, siga los pasos a continuación:

Paso 1. Descargar, instale y luego abra Octoparse.

Paso 2. Cree una nueva tarea haciendo clic en el +New botón en la esquina superior izquierda y eligiendo Tarea personalizada.

Paso 3. Escriba la URL de la página web de la que desea extraer datos en el campo de entrada de URL y haga clic en el Guardar botón. Usaremos la sandbox de scraping de Oxylabs como ejemplo.

Paso 4. Después de que se cargue la URL seleccionada, vaya a "Configuración de la tarea" y seleccione "Antibloqueo".

Paso 5. Ahora, marque Acceder a sitios web mediante Proxies, habilite Usar mis propios Proxies, y haga clic en Configurar.

Paso 6. Cuando haga clic en el Configurar botón, aparecerá una ventana emergente. Especifique los detalles del proxy en el siguiente formato: IP/host:port:username:password.

Por ejemplo, si desea usar nuestro Mobile Proxies, puede usar:

IP/host: pr.oxylabs.io

Puerto: 7777

Nombre de usuario: nombre de usuario del usuario proxy de Oxylabs

Contraseña: contraseña del usuario proxy de Oxylabs

También puede usar entradas específicas por país. Consulte la lista de nodos de entrada específicos por país o, si necesita una sesión fija, consulte aquí.

Paso 7. Configure el intervalo de Switch según si usa un tipo de sesión rotativa o persistente.

Paso 8. Guarde los cambios haciendo clic en el Confirmar botón y, después de eso, haga clic en Guardar.

Proxies ya están configurados.

Cómo empezar a hacer scraping con Octoparse

Paso 1. Seleccione los elementos deseados (títulos de videojuegos) que desea extraer. Para extraer todos los elementos de la misma categoría, elija Seleccionar todos los elementos similares y especifique Texto.

Paso 2. Configure la paginación para extraer varias páginas. Este sitio web en particular usa páginas numeradas, por lo que debe elegir Botón de la página siguiente.

Paso 3. Elija el botón exacto del diseño de la página que abre la página siguiente – Forward – para automatizar la paginación.

Paso 4. Complete la configuración de scraping y pulse ▶Run.

Paso 5. Elija Ejecutar en su dispositivo con Modo estándar para recibir los datos como un archivo en su PC.

Paso 6. Deje que el proceso de scraping se ejecute hasta completarse. El proceso terminará cuando se alcance la última página del producto o cuando lo detenga manualmente.

Paso 7. Extraiga los datos recopilados y seleccione el formato de archivo.

Aquí está el resultado final en una hoja de cálculo.

Eso es todo: ya está todo configurado y listo para centrarse en sus tareas de web scraping con Octoparse.

Última actualización

¿Te fue útil?