Octoparse

在 Octoparse 的无代码网页爬虫中设置数据中心代理。轻松避免自动化数据提取期间的 IP 封锁。

Octoparse 是一款数据提取工具。它让您无需编码即可抓取公开数据,并通过启用自动 IP 轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 的独享数据中心代理集成 数据中心代理, 请按照以下简单步骤操作:

步骤 1。 下载,安装,然后打开 Octoparse。

步骤 2。 点击左上角的 +新建 按钮,并选择 自定义任务。

步骤 3。 URL 输入 中输入您打算提取数据的网页 URL,然后点击 保存 按钮。我们将使用 Oxylabs 抓取沙盒 作为示例。

步骤 4。 在您选择的 URL 加载后,前往 任务设置 > 反封锁.

步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

步骤 6。 当您点击该 配置 按钮时,会出现一个弹窗。请按以下格式填写代理详情: IP/host:port:user-username:password.

对于 数据中心代理,您可以使用:

IP/host: dc.oxylabs.io

端口: 8001

用户名: user-username (您的代理用户的用户名)

密码: 密码 (您的代理用户的密码)

别忘了在您的用户名中添加 user- 用户名的前缀。您还可以在用户认证字符串中指定地理位置,例如美国: user-USERNAME-country-US:PASSWORD。更多详情,请参阅我们的 文档.

步骤 7。 根据您使用的是轮换会话类型还是粘性会话类型,设置 切换 间隔。

第 8 步。 点击 确认 按钮保存更改,之后点击 保存.

代理现已设置完成。

如何使用 Octoparse 开始抓取

步骤 1。 选择您想抓取的目标元素(电子游戏标题)。要提取同一类别中的所有元素,请选择 选择所有相似元素 并指定 文本.

步骤 2。 设置分页以抓取多个页面。这个网站使用页码分页,因此您需要选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的准确按钮—— 前进 ——以实现分页自动化。

步骤 4。 完成抓取设置并按下 ▶运行.

步骤 5。 选择 在您的设备上运行 并使用 标准模式 ,以文件形式在您的 PC 上接收数据。

步骤 6。 让抓取过程一直运行直到完成。当到达最后一个产品页面或您手动停止时,该过程将结束。

步骤 7。 导出收集到的数据并选择文件格式。

这是电子表格中的最终结果。

就是这样——您已全部设置完成,可以开始专注于使用 Octoparse 执行网页抓取任务了。

这有帮助吗?