Octoparse

将 Octoparse 与 Oxylabs 住宅代理集成以实现无代码网页抓取。设置自动 IP 轮换并绕过反爬机制。

Octoparse 是一款数据提取工具。它允许您在无需编码的情况下抓取公共数据,并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。

要将 Octoparse 与 Oxylabs 集成 住宅代理, 请按照以下步骤:

步骤 1。 下载,安装,然后打开 Octoparse。

步骤 2。 通过点击 +New 按钮左上角,然后选择 Custom Task。

步骤 3。 URL 输入 中输入您打算提取数据的网页 URL,并点击 在右上角,点击 按钮。我们将使用 Oxylabs 抓取沙箱 作为示例。

步骤 4。 在所选 URL 加载后,转到 任务设置 > 反封锁.

步骤 5。 现在,勾选 通过代理访问网站,启用 使用我自己的代理, 并点击 配置.

步骤 6。 当您点击 配置 按钮时,会出现弹出窗口。按以下格式指定代理详细信息: IP/主机:端口:用户名:密码.

例如,如果您想使用我们的 住宅代理,您可以使用:

IP/主机: pr.oxylabs.io

端口: 7777

用户名: Oxylabs 代理用户的用户名

密码: Oxylabs 代理用户的密码

您也可以使用特定国家/地区的入口。例如,在 IP/主机 下输入 ie-pr.oxylabs.io 并在 端口 下输入 25000 将获得一个爱尔兰出口节点。请参阅 此页面 以获取国家特定入口节点的完整列表;如果您需要粘性会话,请查看 此处.

步骤 7。 设置 切换 间隔,具体取决于您使用的是轮换会话还是粘性会话类型。

第 8 步。 通过点击 确认 按钮保存更改,之后点击 在右上角,点击.

代理现已设置。

如何使用 Octoparse 开始抓取

步骤 1。 选择您想抓取的目标元素(视频游戏标题)。要提取同一类别的所有元素,选择 选择所有相似元素 并指定 文本.

步骤 2。 设置分页以抓取多页。该网站使用编号页面,提示您选择 下一页按钮.

步骤 3。 在页面布局中选择打开下一页的确切按钮—— 向前 ——以自动化分页。

步骤 4。 完成抓取设置并按下 ▶Run.

步骤 5。 选择 在您的设备上运行 并使用 标准模式 以将数据作为文件接收至您的电脑。

步骤 6。 让抓取过程运行直到完成。当达到最后的产品页面或您手动停止时,过程将结束。

步骤 7。 导出收集到的数据并选择文件格式。

这是在电子表格中的最终结果。

就是这样 — 您已全部设置完毕,准备使用 Octoparse 专注于您的网页抓取任务。

最后更新于

这有帮助吗?