Octoparse
将 Octoparse 与 Oxylabs 独享数据中心自助服务代理集成以实现无缝数据提取 – 在 Octoparse 的任务设置中进行详细配置。
Octoparse 是一款数据提取工具。它允许你在无需编程的情况下抓取公开数据,并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。
要将 Octoparse 与 Oxylabs 集成 独享数据中心代理 (Dedicated Datacenter Proxies), 请按下面简单步骤操作:
第 1 步。 下载,安装,然后打开 Octoparse。
第 2 步。 点击创建新任务,选择 +New 左上角的按钮,然后选择 自定义任务 (Custom Task)。

第 3 步。 在 URL 输入 (URL Input) 中输入你打算提取数据的网页 URL,然后点击 保存 (Save) 按钮。我们将以 Oxylabs 抓取沙箱 (Oxylabs scraping sandbox) 为例。

第 4 步。 在所选 URL 加载后,前往 任务设置 (Task Settings) > 反封锁 (Anti-blocking).


第 5 步。 现在,勾选 通过代理访问网站 (Access websites via proxies),启用 使用我自己的代理 (Use my own proxies), 然后点击 配置 (Configure).

第 6 步。 当你点击 配置 (Configure) 按钮时,会弹出一个窗口。按以下格式指定代理详情: IP/host:port:user-username:password.
对于 独享数据中心代理 (Dedicated Datacenter Proxies),你可以使用:
IP/主机 (IP/host): ddc.oxylabs.io
端口 (Port): 8001
用户名 (Username): user-username
密码 (Password): 密码
别忘了添加 user- 部分。

请注意,本指南中提供的截图为说明用途展示了使用住宅代理 (Residential Proxies) 的设置流程,实际请参照文中为自助独享数据中心代理 (Self-Service Dedicated Datacenter Proxies) 提供的具体指南。
第 7 步。 设置 切换 (Switch) 间隔,具体取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 通过点击 确认 (Confirm) 按钮保存更改,之后点击 保存 (Save).
代理现已设置完成。
如何使用 Octoparse 开始抓取
第 1 步。 选择你想抓取的目标元素(游戏标题)。要提取同一类别的所有元素,选择 选择所有相似元素 (Select all similar elements) 并指定 文本 (Text).


第 2 步。 设置分页以抓取多页。该网站使用编号页,因此请选择 下一页按钮 (Next page button).

第 3 步。 在页面布局中选择打开下一页的具体按钮 —— Forward —— 以实现自动翻页。

第 4 步。 完成抓取设置并按下 ▶Run.

第 5 步。 选择 在你的设备上运行 (Run on your device) 使用 标准模式 (Standard Mode) 以将数据作为文件接收至你的电脑。

第 6 步。 让抓取过程运行直至完成。当到达最后一个商品页面或你手动停止时,过程即结束。

第 7 步。 导出收集到的数据并选择文件格式。


这是表格中的最终结果。

就是这样 —— 你已全部设置完毕,现在可以使用 Octoparse 专注于你的网页抓取任务。
最后更新于
这有帮助吗?

