# Octoparse

[**Octoparse**](https://www.octoparse.com/) 是一款数据提取工具。它让你无需编程即可抓取公开数据，并通过自动 IP 轮换和延长会话时间来绕过大多数反爬机制。

将 Octoparse 与 Oxylabs [**数据中心代理**](https://oxylabs.io/products/datacenter-proxies)**,** 集成，请按以下简单步骤操作：

**第 1 步。** [**下载**](https://www.octoparse.com/download/mac)、安装，然后打开 Octoparse。

**第 2 步。** 点击左上角的 **+New** 按钮，创建一个新任务，然后选择 **Custom Task。**

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FOASotcWXDgZc9Zf0adBf%2Fimage.png?alt=media&#x26;token=c801d381-0359-41c9-9354-3722a7bd980f" alt=""><figcaption></figcaption></figure>

**第 3 步。** 在 **URL Input** 中输入你要提取数据的网页 URL，然后点击 **保存** 按钮。我们将以 [**Oxylabs scraping sandbox**](https://sandbox.oxylabs.io/products/category/pc) 为例。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FjcshbPydXM2kuVWyX7aS%2Fimage.png?alt=media&#x26;token=771cab36-7a87-4732-834c-68f5273a60ae" alt=""><figcaption></figcaption></figure>

**第 4 步。** 在所选 URL 加载完成后，进入 **Task Settings** **>** **Anti-blocking**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FbR9HzXGrZaI4b6kQxoX8%2Fimage.png?alt=media&#x26;token=a596d0f0-e129-465a-81c1-18f3e5426773" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBrIykjKRGnuhvocBIhkF%2Fimage.png?alt=media&#x26;token=74658860-820a-4ba9-a69b-a40bd654764c" alt=""><figcaption></figcaption></figure>

**第 5 步。** 现在，勾选 **Access websites via proxies**，启用 **Use my own proxies,** 然后点击 **Configure**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FY7vAMQj9IgqsXBc6wedz%2Fimage.png?alt=media&#x26;token=e1545490-f2ec-4e1a-a8f0-9ecebf3b0f95" alt=""><figcaption></figcaption></figure>

**第 6 步。** 当你点击 **Configure** 按钮时，会弹出一个窗口。请按以下格式填写代理详情： `IP/host:port:user-username:password`.

对于 **数据中心代理**，你可以使用：&#x20;

**IP/host：** `dc.oxylabs.io`

**端口：** `8001`

{% hint style="warning" %}
对于 **按 IP 计费** 订阅中，端口对应于从所提供列表中分配给某个 IP 地址的顺序编号。因此，端口 `8001` 使用你列表中的第一个 IP 地址。&#x20;

对于 **按流量计费** 订阅中，端口 `8001` 随机选择一个 IP 地址，但在整个会话中保持一致。
{% endhint %}

**作为身份验证方式。**  `user-username` （你的代理用户的用户名）

**用户名：** `password` （你的代理用户的密码）

{% hint style="info" %}
别忘了添加 `user-` 用户名的前缀。你还可以在用户认证字符串中指定地理位置，例如美国： `user-USERNAME-country-US:PASSWORD`。更多详情，请参阅我们的 [文档](https://developers.oxylabs.io/proxies/datacenter-proxies/select-country).
{% endhint %}

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FJgNxYZdl62ywaKkJwo2d%2Foctoparse_dc_details.png?alt=media&#x26;token=7f78e369-8f27-47db-aaa0-174870c85067" alt=""><figcaption></figcaption></figure>

**第 7 步。** 根据你使用的是轮换会话还是粘性会话类型，设置 **Switch** 间隔。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FZkDFgfJjw24p7ulqOi6Y%2Fimage.png?alt=media&#x26;token=112fa9c5-aa39-4b88-98c8-34a4a0bc44f4" alt=""><figcaption></figcaption></figure>

**第 8 步。** 点击 **Confirm** 按钮保存更改，然后点击 **保存**.

代理已设置完成。

### 如何使用 Octoparse 开始抓取

**第 1 步。** 选择你想抓取的目标元素（电子游戏标题）。要提取同一类别中的所有元素，请选择 **Select all similar elements** 并指定 **Text**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FfyDOxHF9Rwiykgaqq39J%2Fimage.png?alt=media&#x26;token=bb062011-d5f8-43f2-a657-c40757a633e7" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FyWKGstGkoyJxCGz3fv3h%2Fimage.png?alt=media&#x26;token=586b6537-0670-4575-b2ef-4ff464253263" alt=""><figcaption></figcaption></figure>

**第 2 步。**  设置分页以抓取多个页面。这个网站使用数字分页，因此你需要选择 **Next page button**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FsavnBgJZHBfLkLZKlUEn%2Fimage.png?alt=media&#x26;token=1e3789ae-dc17-4fa4-86d6-965e30b35f99" alt=""><figcaption></figcaption></figure>

**第 3 步。** 在页面布局中选择打开下一页的准确按钮—— **Forward** ——以自动化分页。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FFvu6T1cOoHvwgpej0ew9%2Fimage.png?alt=media&#x26;token=eccfb543-ac52-4d7c-b0f8-517c5ef98cae" alt=""><figcaption></figcaption></figure>

**第 4 步。** 完成抓取设置后，按 **▶Run**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FS0ymvWpg7l76UMre1wLj%2Fimage.png?alt=media&#x26;token=1dd1e7a2-ae2e-4a12-8fea-6310f55a5ca0" alt=""><figcaption></figcaption></figure>

**第 5 步。** 选择 **Run on your device** 并使用 **Standard Mode** ，即可在电脑上将数据作为文件接收。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2Fr0GbumJhU3B03PYHDHz0%2Fimage.png?alt=media&#x26;token=ba9ca5c8-1c7c-499a-b863-5122e73977d9" alt=""><figcaption></figcaption></figure>

**第 6 步。** 让抓取过程运行直到完成。当前一页产品被抓取完或你手动停止时，过程就会结束。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FSxs5Q8lqzG1TIBP3UxmR%2Fimage.png?alt=media&#x26;token=4ea023cf-9f09-49d4-8c02-bba1a02f9b5f" alt=""><figcaption></figcaption></figure>

**第 7 步。** 导出已收集的数据并选择文件格式。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FmbyRXUBbO5NeshJPmhEq%2Fimage.png?alt=media&#x26;token=7efc381e-166d-4050-85e2-555720a33efc" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBLNiM8AtJmcGhIIIfEzP%2Fimage.png?alt=media&#x26;token=0d06e382-e5f5-4ed1-bb69-e1b4de2106b8" alt=""><figcaption></figcaption></figure>

这是电子表格中的最终结果。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FTayQvSsNcuJcQr8lQAD1%2Fimage.png?alt=media&#x26;token=895acab6-2253-4509-99ac-569253e483f0" alt=""><figcaption></figcaption></figure>

就是这样——你已经全部设置完成，可以开始使用 Octoparse 专注于你的网页抓取任务了。
