# Octoparse

[**Octoparse**](https://www.octoparse.com/) 是一款数据提取工具。它允许您在无需编码的情况下抓取公共数据，并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 集成 [**住宅代理**](https://developers.oxylabs.io/documentation/cn/dai-li/residential-proxies)**,** 请按照以下步骤：

**步骤 1。** [**下载**](https://www.octoparse.com/download/mac)，安装，然后打开 Octoparse。

**步骤 2。** 通过点击 **+New** 按钮左上角，然后选择 **Custom Task。**

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FOASotcWXDgZc9Zf0adBf%2Fimage.png?alt=media&#x26;token=c801d381-0359-41c9-9354-3722a7bd980f" alt=""><figcaption></figcaption></figure>

**步骤 3。** 在 **URL 输入** 中输入您打算提取数据的网页 URL，并点击 **在右上角，点击** 按钮。我们将使用 [**Oxylabs 抓取沙箱**](https://sandbox.oxylabs.io/products/category/pc) 作为示例。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FjcshbPydXM2kuVWyX7aS%2Fimage.png?alt=media&#x26;token=771cab36-7a87-4732-834c-68f5273a60ae" alt=""><figcaption></figcaption></figure>

**步骤 4。** 在所选 URL 加载后，转到 **任务设置** **>** **反封锁**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FbR9HzXGrZaI4b6kQxoX8%2Fimage.png?alt=media&#x26;token=a596d0f0-e129-465a-81c1-18f3e5426773" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBrIykjKRGnuhvocBIhkF%2Fimage.png?alt=media&#x26;token=74658860-820a-4ba9-a69b-a40bd654764c" alt=""><figcaption></figcaption></figure>

**步骤 5。** 现在，勾选 **通过代理访问网站**，启用 **使用我自己的代理，** 并点击 **配置**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FY7vAMQj9IgqsXBc6wedz%2Fimage.png?alt=media&#x26;token=e1545490-f2ec-4e1a-a8f0-9ecebf3b0f95" alt=""><figcaption></figcaption></figure>

**步骤 6。** 当您点击 **配置** 按钮时，会出现弹出窗口。按以下格式指定代理详细信息： `IP/主机:端口:用户名:密码`.

例如，如果您想使用我们的 **住宅代理**，您可以使用：&#x20;

**IP/主机：** `pr.oxylabs.io`

**端口：** `7777`

**用户名：** `Oxylabs 代理用户的用户名`

**密码：** `Oxylabs 代理用户的密码`

{% hint style="info" %}
您也可以使用特定国家/地区的入口。例如，在 **IP/主机** 下输入 ie-pr.oxylabs.io 并在 **端口** 下输入 25000 将获得一个爱尔兰出口节点。请参阅 [**此页面**](https://developers.oxylabs.io/documentation/cn/dai-li/integration-guides/3rd-party-integrations/broken-reference) 以获取国家特定入口节点的完整列表；如果您需要粘性会话，请查看 [**此处**](https://developers.oxylabs.io/documentation/cn/dai-li/residential-proxies/session-control/sticky-proxy-entry-nodes).
{% endhint %}

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FHf5fn8MdxZ8mI0oqTyQc%2Fimage.png?alt=media&#x26;token=bab4c9b9-8a2b-4812-b1df-9cd682464bb2" alt=""><figcaption></figcaption></figure>

**步骤 7。** 设置 **切换** 间隔，具体取决于您使用的是轮换会话还是粘性会话类型。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FZkDFgfJjw24p7ulqOi6Y%2Fimage.png?alt=media&#x26;token=112fa9c5-aa39-4b88-98c8-34a4a0bc44f4" alt=""><figcaption></figcaption></figure>

**第 8 步。** 通过点击 **确认** 按钮保存更改，之后点击 **在右上角，点击**.

代理现已设置。

### 如何使用 Octoparse 开始抓取

**步骤 1。** 选择您想抓取的目标元素（视频游戏标题）。要提取同一类别的所有元素，选择 **选择所有相似元素** 并指定 **文本**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FfyDOxHF9Rwiykgaqq39J%2Fimage.png?alt=media&#x26;token=bb062011-d5f8-43f2-a657-c40757a633e7" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FyWKGstGkoyJxCGz3fv3h%2Fimage.png?alt=media&#x26;token=586b6537-0670-4575-b2ef-4ff464253263" alt=""><figcaption></figcaption></figure>

**步骤 2。**  设置分页以抓取多页。该网站使用编号页面，提示您选择 **下一页按钮**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FsavnBgJZHBfLkLZKlUEn%2Fimage.png?alt=media&#x26;token=1e3789ae-dc17-4fa4-86d6-965e30b35f99" alt=""><figcaption></figcaption></figure>

**步骤 3。** 在页面布局中选择打开下一页的确切按钮—— **向前** ——以自动化分页。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FFvu6T1cOoHvwgpej0ew9%2Fimage.png?alt=media&#x26;token=eccfb543-ac52-4d7c-b0f8-517c5ef98cae" alt=""><figcaption></figcaption></figure>

**步骤 4。** 完成抓取设置并按下 **▶Run**.

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FS0ymvWpg7l76UMre1wLj%2Fimage.png?alt=media&#x26;token=1dd1e7a2-ae2e-4a12-8fea-6310f55a5ca0" alt=""><figcaption></figcaption></figure>

**步骤 5。** 选择 **在您的设备上运行** 并使用 **标准模式** 以将数据作为文件接收至您的电脑。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2Fr0GbumJhU3B03PYHDHz0%2Fimage.png?alt=media&#x26;token=ba9ca5c8-1c7c-499a-b863-5122e73977d9" alt=""><figcaption></figcaption></figure>

**步骤 6。** 让抓取过程运行直到完成。当达到最后的产品页面或您手动停止时，过程将结束。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FSxs5Q8lqzG1TIBP3UxmR%2Fimage.png?alt=media&#x26;token=4ea023cf-9f09-49d4-8c02-bba1a02f9b5f" alt=""><figcaption></figcaption></figure>

**步骤 7。** 导出收集到的数据并选择文件格式。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FmbyRXUBbO5NeshJPmhEq%2Fimage.png?alt=media&#x26;token=7efc381e-166d-4050-85e2-555720a33efc" alt=""><figcaption></figcaption></figure>

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBLNiM8AtJmcGhIIIfEzP%2Fimage.png?alt=media&#x26;token=0d06e382-e5f5-4ed1-bb69-e1b4de2106b8" alt=""><figcaption></figcaption></figure>

这是在电子表格中的最终结果。

<figure><img src="https://2655358775-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FTayQvSsNcuJcQr8lQAD1%2Fimage.png?alt=media&#x26;token=895acab6-2253-4509-99ac-569253e483f0" alt=""><figcaption></figcaption></figure>

就是这样 — 您已全部设置完毕，准备使用 Octoparse 专注于您的网页抓取任务。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://developers.oxylabs.io/documentation/cn/dai-li/integration-guides/3rd-party-integrations/octoparse-1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
