Octoparse
将 Octoparse 与 Oxylabs 移动代理集成以实现无代码数据提取——包含代理配置和抓取流程的详细设置指南。
Octoparse 是一款数据提取工具。它允许你在无需编程的情况下抓取公开数据,并通过启用自动IP轮换和延长会话时间来绕过大多数反爬机制。
将 Octoparse 与 Oxylabs 集成 移动代理, 请按照以下步骤:
步骤 1。 下载,安装并打开 Octoparse。
步骤 2。 通过点击 +New 左上角的按钮,然后选择 Custom Task。

步骤 3。 在 URL Input 中输入你打算提取数据的网页 URL,然后点击 保存 按钮。我们将使用 Oxylabs scraping sandbox 作为示例。

步骤 4。 在所选 URL 加载后,转到 Task Settings > Anti-blocking.


步骤 5。 现在,勾选 Access websites via proxies,启用 Use my own proxies, 并点击 Configure.

步骤 6。 当你点击 Configure 按钮时,会弹出一个窗口。在以下格式中指定代理详情: IP/host:port:username:password.
例如,如果你想使用我们的 移动代理,你可以使用:
IP/host: pr.oxylabs.io
端口: 7777
用户名: Oxylabs proxy user’s username
密码: Oxylabs proxy user’s password

步骤 7。 Set up the Switch 间隔,具体取决于你使用的是轮换会话还是粘性会话类型。

步骤 8。 点击 确认 按钮保存更改,随后点击 保存.
代理现已设置。
如何使用 Octoparse 开始抓取
步骤 1。 选择你想抓取的目标元素(游戏标题)。要提取同一类别的所有元素,选择 Select all similar elements 并指定 Text.


步骤 2。 设置分页以抓取多页。该网站使用编号页面,提示你选择 Next page button.

步骤 3。 在页面布局中选择打开下一页的确切按钮—— Forward ——以自动化分页。

步骤 4。 完成抓取设置并按下 ▶Run.

步骤 5。 选择 在你的设备上运行 使用 Standard Mode 以将数据作为文件接收至你的电脑。

步骤 6。 让抓取过程运行直到完成。到达最后的产品页面或你手动停止时,过程即结束。

步骤 7。 导出收集到的数据并选择文件格式。


这是以电子表格形式的最终结果。

就是这样——你已全部设置完毕,可以用 Octoparse 专注于你的网页抓取任务。
最后更新于
这有帮助吗?

