Octoparse
将 Octoparse 与 Oxylabs 独享ISP代理集成,以实现无缝数据提取——在 Octoparse 任务设置中进行分步配置。
最后更新于
这有帮助吗?
将 Octoparse 与 Oxylabs 独享ISP代理集成,以实现无缝数据提取——在 Octoparse 任务设置中进行分步配置。
Octoparse 是一款数据提取工具。它允许你无需编码即可抓取公开数据,并通过自动 IP 轮换和延长会话时间来处理大多数抓取挑战。
将 Octoparse 与 Oxylabs 集成 独享ISP代理 你已通过自助服务购买,请按照以下简单步骤操作:
第 1 步。 下载、安装,然后打开 Octoparse。
第 2 步。 通过点击 +New 按钮(位于左上角),然后选择 自定义任务。

第 3 步。 在 URL 输入框 中输入你要从中提取数据的网页 URL,然后点击 保存 按钮。我们将以 Oxylabs 抓取沙盒 为例。

第 4 步。 在所选 URL 加载完成后,转到 “任务设置” 并选择 “反屏蔽”.


第 5 步。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

第 6 步。 当你点击 配置 按钮时,会弹出一个窗口。请按以下格式指定代理详细信息: IP/host:port:username:password.
例如 独享ISP代理,你可以使用:
IP/主机: disp.oxylabs.io
端口: 8001
用户名: user-USERNAME
密码: PASSWORD
注意: 别忘了添加 user- 前缀添加到你的用户名中。

第 7 步。 设置 切换 间隔,具体取决于你使用的是静态 IP 还是 Proxy Rotator。

第 8 步。 通过点击 确认 按钮保存更改,然后点击 保存.
代理已设置完成。
第 1 步。 选择你想抓取的目标元素(电子游戏标题)。要提取同一类别中的所有元素,请选择 选择所有相似元素 并指定 文本.


第 2 步。 设置分页以抓取多页。该网站使用分页数字,因此你需要选择 下一页按钮.

第 3 步。 选择页面布局中打开下一页的准确按钮—— 前进 ——以自动分页。

第 4 步。 完成抓取设置并按下 ▶运行.

第 5 步。 选择 在你的设备上运行 并使用 标准模式 将数据作为文件保存到你的电脑。

第 6 步。 让抓取过程运行直到完成。当到达最终产品页面或你手动停止时,过程就会结束。

第 7 步。 提取已收集的数据并选择文件格式。


以下是电子表格中的最终结果。

就是这样——你已经全部设置完成,可以开始专注于使用 Octoparse 进行网页抓取任务了。
最后更新于
这有帮助吗?
这有帮助吗?

