# Octoparse

[**Octoparse**](https://www.octoparse.com/) es una herramienta de extracción de datos. Te permite extraer datos públicos sin programar y evitar la mayoría de los mecanismos antiescraping al habilitar la rotación automática de IP y un tiempo de sesión prolongado.

Para integrar Octoparse con Oxylabs [**Dedicated Datacenter Proxies**](https://oxylabs.io/products/datacenter-proxies/dedicated-datacenter-proxies)**,** sigue los sencillos pasos a continuación:

**Paso 1.** [**Descarga**](https://www.octoparse.com/download/mac), instálalo y luego abre Octoparse.

**Paso 2.** Crea una nueva tarea haciendo clic en el **+New** botón en la esquina superior izquierda y seleccionando **Custom Task.**

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FOASotcWXDgZc9Zf0adBf%2Fimage.png?alt=media&#x26;token=c801d381-0359-41c9-9354-3722a7bd980f" alt=""><figcaption></figcaption></figure>

**Paso 3.** Escribe la URL de la página web de la que deseas extraer datos en el **URL Input** y haz clic en el **Guardar** botón. Usaremos [**Oxylabs scraping sandbox**](https://sandbox.oxylabs.io/products/category/pc) como ejemplo.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FjcshbPydXM2kuVWyX7aS%2Fimage.png?alt=media&#x26;token=771cab36-7a87-4732-834c-68f5273a60ae" alt=""><figcaption></figcaption></figure>

**Paso 4.** Después de que se cargue la URL seleccionada, ve a **Task Settings** **>** **Anti-blocking**.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FbR9HzXGrZaI4b6kQxoX8%2Fimage.png?alt=media&#x26;token=a596d0f0-e129-465a-81c1-18f3e5426773" alt=""><figcaption></figcaption></figure>

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBrIykjKRGnuhvocBIhkF%2Fimage.png?alt=media&#x26;token=74658860-820a-4ba9-a69b-a40bd654764c" alt=""><figcaption></figcaption></figure>

**Paso 5.** Ahora, marca **Access websites via proxies**, habilita **Use my own proxies,** y haz clic en **Configure**.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FY7vAMQj9IgqsXBc6wedz%2Fimage.png?alt=media&#x26;token=e1545490-f2ec-4e1a-a8f0-9ecebf3b0f95" alt=""><figcaption></figcaption></figure>

**Paso 6.** Cuando hagas clic en el **Configure** botón, aparecerá una ventana emergente. Especifica los detalles del proxy en el siguiente formato: `IP/host:port:username:password`.

Por ejemplo, si quieres usar nuestros **Dedicated Datacenter Proxies**, puedes usar:&#x20;

**IP/host:** una dirección IP específica (por ejemplo, `1.2.3.4`)

**Puerto:** `60000`

**Nombre de usuario:** `nombre de usuario del usuario proxy de Oxylabs`

**Contraseña:** `contraseña del usuario proxy de Oxylabs`

Si estás usando IPs en la lista blanca:

**Puerto:** `65432`

{% hint style="info" %}
Para Dedicated Datacenter Proxies, tendrás que elegir una dirección IP de la [**lista adquirida**](https://developers.oxylabs.io/documentation/es/proxies/dedicated-datacenter-proxies/enterprise/proxy-lists).
{% endhint %}

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2Fejk8osDDR0rI4TCVsXmD%2Foctoparse_ddc-e_details.png?alt=media&#x26;token=906d8e99-eba3-49e5-b3db-80424c4b5996" alt=""><figcaption></figcaption></figure>

**Paso 7.** Configura el intervalo de **Switch** según si usas un tipo de sesión rotativa o persistente.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FZkDFgfJjw24p7ulqOi6Y%2Fimage.png?alt=media&#x26;token=112fa9c5-aa39-4b88-98c8-34a4a0bc44f4" alt=""><figcaption></figcaption></figure>

**Paso 8.** Guarda los cambios haciendo clic en el **Confirm** botón y, después, haz clic en **Guardar**.

Los proxies ya están configurados.

### Cómo empezar a extraer datos usando Octoparse

**Paso 1.** Selecciona los elementos deseados (títulos de videojuegos) que quieres extraer. Para extraer todos los elementos de la misma categoría, elige **Seleccionar todos los elementos similares** y especifica **Texto**.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FfyDOxHF9Rwiykgaqq39J%2Fimage.png?alt=media&#x26;token=bb062011-d5f8-43f2-a657-c40757a633e7" alt=""><figcaption></figcaption></figure>

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FyWKGstGkoyJxCGz3fv3h%2Fimage.png?alt=media&#x26;token=586b6537-0670-4575-b2ef-4ff464253263" alt=""><figcaption></figcaption></figure>

**Paso 2.**  Configura la paginación para extraer varias páginas. Este sitio web en particular usa páginas numeradas, lo que te pide elegir **Botón de la página siguiente**.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FsavnBgJZHBfLkLZKlUEn%2Fimage.png?alt=media&#x26;token=1e3789ae-dc17-4fa4-86d6-965e30b35f99" alt=""><figcaption></figcaption></figure>

**Paso 3.** Elige el botón exacto en el diseño de la página que abre la siguiente página – **Adelante** – para automatizar la paginación.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FFvu6T1cOoHvwgpej0ew9%2Fimage.png?alt=media&#x26;token=eccfb543-ac52-4d7c-b0f8-517c5ef98cae" alt=""><figcaption></figcaption></figure>

**Paso 4.** Completa la configuración de la extracción y pulsa **▶Run**.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FS0ymvWpg7l76UMre1wLj%2Fimage.png?alt=media&#x26;token=1dd1e7a2-ae2e-4a12-8fea-6310f55a5ca0" alt=""><figcaption></figcaption></figure>

**Paso 5.** Elige **Ejecutar en tu dispositivo** con **Standard Mode** para recibir los datos como un archivo en tu PC.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2Fr0GbumJhU3B03PYHDHz0%2Fimage.png?alt=media&#x26;token=ba9ca5c8-1c7c-499a-b863-5122e73977d9" alt=""><figcaption></figcaption></figure>

**Paso 6.** Deja que el proceso de extracción se ejecute hasta completarse. El proceso terminará cuando se alcance la página final del producto o cuando lo detengas manualmente.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FSxs5Q8lqzG1TIBP3UxmR%2Fimage.png?alt=media&#x26;token=4ea023cf-9f09-49d4-8c02-bba1a02f9b5f" alt=""><figcaption></figcaption></figure>

**Paso 7.** Extrae los datos recopilados y selecciona el formato de archivo.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FmbyRXUBbO5NeshJPmhEq%2Fimage.png?alt=media&#x26;token=7efc381e-166d-4050-85e2-555720a33efc" alt=""><figcaption></figcaption></figure>

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBLNiM8AtJmcGhIIIfEzP%2Fimage.png?alt=media&#x26;token=0d06e382-e5f5-4ed1-bb69-e1b4de2106b8" alt=""><figcaption></figcaption></figure>

Aquí está el resultado final en una hoja de cálculo.

<figure><img src="https://338917265-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FTayQvSsNcuJcQr8lQAD1%2Fimage.png?alt=media&#x26;token=895acab6-2253-4509-99ac-569253e483f0" alt=""><figcaption></figcaption></figure>

Eso es todo: ya está todo configurado y listo para que te concentres en tus tareas de web scraping con Octoparse.
