Documentation has been updated: see help center and changelog in one place.

Octoparse

将 Octoparse 与 Oxylabs 独享数据中心自助服务代理集成以实现无缝数据提取 – 在 Octoparse 的任务设置中进行详细配置。

Octoparse 是一款数据提取工具。它允许你在无需编程的情况下抓取公开数据,并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 集成 独享数据中心代理 (Dedicated Datacenter Proxies), 请按下面简单步骤操作:

第 1 步。 下载,安装,然后打开 Octoparse。

第 2 步。 点击创建新任务,选择 +New 左上角的按钮,然后选择 自定义任务 (Custom Task)。

第 3 步。 URL 输入 (URL Input) 中输入你打算提取数据的网页 URL,然后点击 保存 (Save) 按钮。我们将以 Oxylabs 抓取沙箱 (Oxylabs scraping sandbox) 为例。

第 4 步。 在所选 URL 加载后,前往 任务设置 (Task Settings) > 反封锁 (Anti-blocking).

第 5 步。 现在,勾选 通过代理访问网站 (Access websites via proxies),启用 使用我自己的代理 (Use my own proxies), 然后点击 配置 (Configure).

第 6 步。 当你点击 配置 (Configure) 按钮时,会弹出一个窗口。按以下格式指定代理详情: IP/host:port:user-username:password.

对于 独享数据中心代理 (Dedicated Datacenter Proxies),你可以使用:

IP/主机 (IP/host): ddc.oxylabs.io

端口 (Port): 8001

你需要选择分配给已购买的一个 IP 地址的端口, 代理列表, 该端口可以在 Oxylabs 的控制面板中找到。

用户名 (Username): user-username

密码 (Password): 密码

第 7 步。 设置 切换 (Switch) 间隔,具体取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 通过点击 确认 (Confirm) 按钮保存更改,之后点击 保存 (Save).

代理现已设置完成。

如何使用 Octoparse 开始抓取

第 1 步。 选择你想抓取的目标元素(游戏标题)。要提取同一类别的所有元素,选择 选择所有相似元素 (Select all similar elements) 并指定 文本 (Text).

第 2 步。 设置分页以抓取多页。该网站使用编号页,因此请选择 下一页按钮 (Next page button).

第 3 步。 在页面布局中选择打开下一页的具体按钮 —— Forward —— 以实现自动翻页。

第 4 步。 完成抓取设置并按下 ▶Run.

第 5 步。 选择 在你的设备上运行 (Run on your device) 使用 标准模式 (Standard Mode) 以将数据作为文件接收至你的电脑。

第 6 步。 让抓取过程运行直至完成。当到达最后一个商品页面或你手动停止时,过程即结束。

第 7 步。 导出收集到的数据并选择文件格式。

这是表格中的最终结果。

就是这样 —— 你已全部设置完毕,现在可以使用 Octoparse 专注于你的网页抓取任务。

最后更新于

这有帮助吗?