Documentation has been updated: see help center and changelog in one place.

Octoparse

Octoparse 是一款数据提取工具。它允许你在无需编程的情况下抓取公开数据,并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 集成 住宅代理 (Residential Proxies), 请按以下步骤操作:

第 1 步。 下载,安装,然后打开 Octoparse。

第 2 步。 点击创建新任务,选择 +New 左上角的按钮,然后选择 自定义任务 (Custom Task)。

第 3 步。 URL 输入 (URL Input) 中输入你打算提取数据的网页 URL,然后点击 保存 (Save) 按钮。我们将以 Oxylabs 抓取沙箱 (Oxylabs scraping sandbox) 为例。

第 4 步。 在所选 URL 加载后,前往 任务设置 (Task Settings) > 反封锁 (Anti-blocking).

第 5 步。 现在,勾选 通过代理访问网站 (Access websites via proxies),启用 使用我自己的代理 (Use my own proxies), 然后点击 配置 (Configure).

第 6 步。 当你点击 配置 (Configure) 按钮时,会弹出一个窗口。按以下格式指定代理详情: IP/主机:端口:用户名:密码.

例如,如果您想使用我们的 住宅代理 (Residential Proxies),你可以使用:

IP/主机 (IP/host): pr.oxylabs.io

端口 (Port): 7777

用户名 (Username): Oxylabs 代理用户的用户名

密码: Oxylabs 代理用户的密码

您还可以使用特定国家/地区的入口。例如,在下方输入 ie-pr.oxylabs.io 时, IP/主机 并在下方输入 25000 时, 端口 将获得一个爱尔兰出口节点。请参阅 此页面 以获取特定国家/地区入口节点的完整列表,或如果您需要粘性会话,请查看 此处.

第 7 步。 设置 切换 (Switch) 间隔,具体取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 通过点击 确认 (Confirm) 按钮保存更改,之后点击 保存 (Save).

代理现已设置完成。

如何使用 Octoparse 开始抓取

第 1 步。 选择你想抓取的目标元素(游戏标题)。要提取同一类别的所有元素,选择 选择所有相似元素 (Select all similar elements) 并指定 文本 (Text).

第 2 步。 设置分页以抓取多页。该网站使用编号页,因此请选择 下一页按钮 (Next page button).

第 3 步。 在页面布局中选择打开下一页的具体按钮 —— Forward —— 以实现自动翻页。

第 4 步。 完成抓取设置并按下 ▶Run.

第 5 步。 选择 在你的设备上运行 (Run on your device) 使用 标准模式 (Standard Mode) 以将数据作为文件接收至你的电脑。

第 6 步。 让抓取过程运行直至完成。当到达最后一个商品页面或你手动停止时,过程即结束。

第 7 步。 导出收集到的数据并选择文件格式。

这是表格中的最终结果。

就是这样 —— 你已全部设置完毕,现在可以使用 Octoparse 专注于你的网页抓取任务。

最后更新于

这有帮助吗?