Octoparse
将 Octoparse 与 Oxylabs 住宅代理集成,用于无代码网页爬取。设置自动 IP 轮换并绕过反爬机制。
Octoparse 是一款数据提取工具。它让您无需编码即可抓取公开数据,并通过启用自动 IP 轮换和延长会话时间来绕过大多数反爬机制。
要将 Octoparse 与 Oxylabs 的独享数据中心代理集成 住宅代理, 请按以下步骤操作:
步骤 1。 下载,安装,然后打开 Octoparse。
步骤 2。 点击左上角的 +新建 按钮,并选择 自定义任务。

步骤 3。 在 URL 输入 中输入您打算提取数据的网页 URL,然后点击 保存 按钮。我们将使用 Oxylabs 抓取沙盒 作为示例。

步骤 4。 在您选择的 URL 加载后,前往 任务设置 > 反封锁.


步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 然后点击 配置.

步骤 6。 当您点击该 配置 按钮时,会出现一个弹窗。请按以下格式填写代理详情: IP/host:port:username:password.
例如,如果你想使用我们的 住宅代理,您可以使用:
IP/host: pr.oxylabs.io
端口: 7777
用户名: Oxylabs 代理用户的用户名
密码: Oxylabs 代理用户的密码
你也可以使用特定国家的条目。例如,在下方输入 ie-pr.oxylabs.io IP/host 以及在下方输入 25000 端口 将获取一个爱尔兰出口节点。请参阅 此页面 以获取完整的特定国家条目节点列表,或者如果你需要粘性会话,请查看 这里.

步骤 7。 根据您使用的是轮换会话类型还是粘性会话类型,设置 切换 间隔。

第 8 步。 点击 确认 按钮保存更改,之后点击 保存.
代理现已设置完成。
如何使用 Octoparse 开始抓取
步骤 1。 选择您想抓取的目标元素(电子游戏标题)。要提取同一类别中的所有元素,请选择 选择所有相似元素 并指定 文本.


步骤 2。 设置分页以抓取多个页面。这个网站使用页码分页,因此您需要选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的准确按钮—— 前进 ——以实现分页自动化。

步骤 4。 完成抓取设置并按下 ▶运行.

步骤 5。 选择 在您的设备上运行 并使用 标准模式 ,以文件形式在您的 PC 上接收数据。

步骤 6。 让抓取过程一直运行直到完成。当到达最后一个产品页面或您手动停止时,该过程将结束。

步骤 7。 导出收集到的数据并选择文件格式。


这是电子表格中的最终结果。

就是这样——您已全部设置完成,可以开始专注于使用 Octoparse 执行网页抓取任务了。
这有帮助吗?

