Octoparse
在 Octoparse 的无代码网页爬虫中设置数据中心代理。轻松避免自动化数据提取期间的 IP 封锁。
Octoparse 是一款数据提取工具。它让您无需编码即可抓取公开数据,并通过启用自动 IP 轮换和延长会话时间来绕过大多数反爬机制。
要将 Octoparse 与 Oxylabs 的独享数据中心代理集成 数据中心代理, 请按照以下简单步骤操作:
步骤 1。 下载,安装,然后打开 Octoparse。
步骤 2。 点击左上角的 +新建 按钮,并选择 自定义任务。

步骤 3。 在 URL 输入 中输入您打算提取数据的网页 URL,然后点击 保存 按钮。我们将使用 Oxylabs 抓取沙盒 作为示例。

步骤 4。 在您选择的 URL 加载后,前往 任务设置 > 反封锁.


步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

步骤 6。 当您点击该 配置 按钮时,会出现一个弹窗。请按以下格式填写代理详情: IP/host:port:user-username:password.
对于 数据中心代理,您可以使用:
IP/host: dc.oxylabs.io
端口: 8001
对于 按 IP 付费 订阅,端口对应于从所提供列表中分配给某个 IP 地址的顺序编号。因此,端口 8001 使用列表中的第一个 IP 地址。
对于 按流量付费 订阅,端口 8001 随机选择一个 IP 地址,但在整个会话中保持一致。
用户名: user-username (您的代理用户的用户名)
密码: 密码 (您的代理用户的密码)
别忘了在您的用户名中添加 user- 用户名的前缀。您还可以在用户认证字符串中指定地理位置,例如美国: user-USERNAME-country-US:PASSWORD。更多详情,请参阅我们的 文档.

步骤 7。 根据您使用的是轮换会话类型还是粘性会话类型,设置 切换 间隔。

第 8 步。 点击 确认 按钮保存更改,之后点击 保存.
代理现已设置完成。
如何使用 Octoparse 开始抓取
步骤 1。 选择您想抓取的目标元素(电子游戏标题)。要提取同一类别中的所有元素,请选择 选择所有相似元素 并指定 文本.


步骤 2。 设置分页以抓取多个页面。这个网站使用页码分页,因此您需要选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的准确按钮—— 前进 ——以实现分页自动化。

步骤 4。 完成抓取设置并按下 ▶运行.

步骤 5。 选择 在您的设备上运行 并使用 标准模式 ,以文件形式在您的 PC 上接收数据。

步骤 6。 让抓取过程一直运行直到完成。当到达最后一个产品页面或您手动停止时,该过程将结束。

步骤 7。 导出收集到的数据并选择文件格式。


这是电子表格中的最终结果。

就是这样——您已全部设置完成,可以开始专注于使用 Octoparse 执行网页抓取任务了。
这有帮助吗?

