Documentation has been updated: see help center and changelog in one place.

Octoparse

在 Octoparse 的无代码网页爬虫中设置数据中心代理。在自动化数据提取过程中轻松避免 IP 封锁。

Octoparse 是一款数据提取工具。它允许你在无需编码的情况下抓取公开数据,并通过启用自动 IP 轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 集成 数据中心代理, 请按照以下简单步骤:

步骤 1。 下载,安装并打开 Octoparse。

步骤 2。 通过点击创建新任务,点击 +New 左上角的按钮,然后选择 自定义任务。

步骤 3。 在你打算提取数据的网页的 URL 输入 中输入 URL 并点击 保存 按钮。我们将以 Oxylabs 爬取沙箱 为例。

步骤 4。 在所选 URL 加载后,转到 任务设置 > 反封锁.

步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

步骤 6。 当你点击 配置 按钮时,会出现一个弹窗。按以下格式指定代理详细信息: IP/host:port:user-username:password.

对于 数据中心代理,你可以使用:

IP/host: dc.oxylabs.io

端口: 8001

用户名: user-username (您的代理用户的用户名)

密码: 密码 (您的代理用户的密码)

别忘了添加 user- 用户名的一部分。您也可以在用户认证字符串中指定地理位置,例如 US: user-USERNAME-country-US:PASSWORD。有关更多详细信息,请参阅我们的 文档.

步骤 7。 设置 切换 间隔,取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 点击 确认 按钮保存更改,之后点击 保存.

代理现已设置。

如何使用 Octoparse 开始抓取

步骤 1。 选择你想抓取的目标元素(游戏标题)。要提取同一类别下的所有元素,选择 选择所有相似元素 并指定 文本.

步骤 2。 设置分页以抓取多页。该网站使用编号页,需选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的具体按钮 — 前进 — 以实现分页自动化。

步骤 4。 完成抓取设置并按下 ▶Run.

步骤 5。 选择 在你的设备上运行 并使用 标准模式 以将数据作为文件保存到你的电脑。

步骤 6。 让抓取过程运行直至完成。当到达最终的产品页面或你手动停止时,过程即结束。

步骤 7。 导出收集到的数据并选择文件格式。

这是最终的电子表格结果。

就是这样——你已完成设置,可以专注于使用 Octoparse 执行网页抓取任务。

最后更新于

这有帮助吗?