Octoparse
将 Octoparse 与 Oxylabs ISP 代理集成,实现无缝数据提取——在 Octoparse 任务设置中的分步配置。
Octoparse 是一款数据提取工具。它让你无需编程即可抓取公开数据,并通过自动 IP 轮换和延长会话时间来绕过大多数反爬机制。
要将 Octoparse 与 Oxylabs ISP代理 集成,请按照以下简单步骤操作:
第 1 步。 下载、安装,然后打开 Octoparse。
第 2 步。 点击左上角的 +New 按钮,创建一个新任务,然后选择 Custom Task。

第 3 步。 在 URL Input 中输入你要提取数据的网页 URL,然后点击 保存 按钮。我们将以 Oxylabs scraping sandbox 为例。

第 4 步。 在所选 URL 加载完成后,进入 Task Settings > Anti-blocking.


第 5 步。 现在,勾选 Access websites via proxies,启用 Use my own proxies, 然后点击 Configure.

第 6 步。 当你点击 Configure 按钮时,会弹出一个窗口。请按以下格式填写代理详情: IP/host:port:username:password.
对于 ISP代理,你可以使用:
IP/host: isp.oxylabs.io
端口: 8001
你需要为从已购买的 代理列表, 中分配到 IP 地址的端口进行选择,你可以在 Oxylabs 的仪表板上找到它。该 8001 端口会为所有请求从你的列表中选取第一个 IP 地址。
作为身份验证方式。 user-username
用户名: password
别忘了添加 user- 部分。

第 7 步。 根据你使用的是轮换会话还是粘性会话类型,设置 Switch 间隔。

第 8 步。 点击 Confirm 按钮保存更改,然后点击 保存.
代理已设置完成。
如何使用 Octoparse 开始抓取
第 1 步。 选择你想抓取的目标元素(电子游戏标题)。要提取同一类别中的所有元素,请选择 Select all similar elements 并指定 Text.


第 2 步。 设置分页以抓取多个页面。这个网站使用数字分页,因此你需要选择 Next page button.

第 3 步。 在页面布局中选择打开下一页的准确按钮—— Forward ——以自动化分页。

第 4 步。 完成抓取设置后,按 ▶Run.

第 5 步。 选择 Run on your device 并使用 Standard Mode ,即可在电脑上将数据作为文件接收。

第 6 步。 让抓取过程运行直到完成。当前一页产品被抓取完或你手动停止时,过程就会结束。

第 7 步。 导出已收集的数据并选择文件格式。


这是电子表格中的最终结果。

就是这样——你已经全部设置完成,可以开始使用 Octoparse 专注于你的网页抓取任务了。
最后更新于
这有帮助吗?

