Octoparse

在 Octoparse 的无代码网页爬虫中设置数据中心代理。在自动数据提取过程中轻松避免 IP 封锁。

Octoparse 是一款数据提取工具。它让你无需编程即可抓取公开数据，并通过自动 IP 轮换和延长会话时间来绕过大多数反爬机制。

将 Octoparse 与 Oxylabs 数据中心代理, 集成，请按以下简单步骤操作：

第 1 步。 下载、安装，然后打开 Octoparse。

第 2 步。 点击左上角的 +New 按钮，创建一个新任务，然后选择 Custom Task。

第 3 步。 在 URL Input 中输入你要提取数据的网页 URL，然后点击保存按钮。我们将以 Oxylabs scraping sandbox 为例。

第 4 步。 在所选 URL 加载完成后，进入 Task Settings > Anti-blocking.

第 5 步。 现在，勾选 Access websites via proxies，启用 Use my own proxies, 然后点击 Configure.

第 6 步。 当你点击 Configure 按钮时，会弹出一个窗口。请按以下格式填写代理详情： IP/host:port:user-username:password.

对于 数据中心代理，你可以使用：

IP/host： dc.oxylabs.io

端口： 8001

对于 按 IP 计费 订阅中，端口对应于从所提供列表中分配给某个 IP 地址的顺序编号。因此，端口 8001 使用你列表中的第一个 IP 地址。

对于 按流量计费 订阅中，端口 8001 随机选择一个 IP 地址，但在整个会话中保持一致。

作为身份验证方式。 user-username （你的代理用户的用户名）

用户名： password （你的代理用户的密码）

别忘了添加 user- 用户名的前缀。你还可以在用户认证字符串中指定地理位置，例如美国： user-USERNAME-country-US:PASSWORD。更多详情，请参阅我们的文档.

第 7 步。 根据你使用的是轮换会话还是粘性会话类型，设置 Switch 间隔。

第 8 步。 点击 Confirm 按钮保存更改，然后点击保存.

代理已设置完成。

第 1 步。 选择你想抓取的目标元素（电子游戏标题）。要提取同一类别中的所有元素，请选择 Select all similar elements 并指定 Text.

第 2 步。 设置分页以抓取多个页面。这个网站使用数字分页，因此你需要选择 Next page button.

第 3 步。 在页面布局中选择打开下一页的准确按钮—— Forward ——以自动化分页。

第 4 步。 完成抓取设置后，按 ▶Run.

第 5 步。 选择 Run on your device 并使用 Standard Mode ，即可在电脑上将数据作为文件接收。

第 6 步。 让抓取过程运行直到完成。当前一页产品被抓取完或你手动停止时，过程就会结束。

第 7 步。 导出已收集的数据并选择文件格式。

这是电子表格中的最终结果。

就是这样——你已经全部设置完成，可以开始使用 Octoparse 专注于你的网页抓取任务了。

最后更新于1天前

这有帮助吗？