Octoparse
在 Octoparse 的无代码网页爬虫中设置数据中心代理。在自动化数据提取过程中轻松避免 IP 封锁。
Octoparse 是一款数据提取工具。它允许你在无需编码的情况下抓取公开数据,并通过启用自动 IP 轮换和延长会话时间来绕过大多数反爬机制。
要将 Octoparse 与 Oxylabs 集成 数据中心代理, 请按照以下简单步骤:
步骤 1。 下载,安装并打开 Octoparse。
步骤 2。 通过点击创建新任务,点击 +New 左上角的按钮,然后选择 自定义任务。

步骤 3。 在你打算提取数据的网页的 URL 输入 中输入 URL 并点击 保存 按钮。我们将以 Oxylabs 爬取沙箱 为例。

步骤 4。 在所选 URL 加载后,转到 任务设置 > 反封锁.


步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

步骤 6。 当你点击 配置 按钮时,会出现一个弹窗。按以下格式指定代理详细信息: IP/host:port:user-username:password.
对于 数据中心代理,你可以使用:
IP/host: dc.oxylabs.io
端口: 8001
中找到分配的端口号。 对于 订阅中,端口对应于从提供的列表中分配给 IP 地址的顺序编号。因此,端口 8001 使用您列表中的第一个 IP 地址。
中找到分配的端口号。 按流量付费 订阅,端口 8001 随机选择一个 IP 地址,但在整个会话中保持一致。
用户名: user-username (您的代理用户的用户名)
密码: 密码 (您的代理用户的密码)
请注意,本指南中提供的屏幕截图为说明目的使用了住宅代理,具体的 数据中心代理 配置请参阅正文中的特定指南。

步骤 7。 设置 切换 间隔,取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 点击 确认 按钮保存更改,之后点击 保存.
代理现已设置。
如何使用 Octoparse 开始抓取
步骤 1。 选择你想抓取的目标元素(游戏标题)。要提取同一类别下的所有元素,选择 选择所有相似元素 并指定 文本.


步骤 2。 设置分页以抓取多页。该网站使用编号页,需选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的具体按钮 — 前进 — 以实现分页自动化。

步骤 4。 完成抓取设置并按下 ▶Run.

步骤 5。 选择 在你的设备上运行 并使用 标准模式 以将数据作为文件保存到你的电脑。

步骤 6。 让抓取过程运行直至完成。当到达最终的产品页面或你手动停止时,过程即结束。

步骤 7。 导出收集到的数据并选择文件格式。


这是最终的电子表格结果。

就是这样——你已完成设置,可以专注于使用 Octoparse 执行网页抓取任务。
最后更新于
这有帮助吗?

