集成方法
了解 Oxylabs 网页爬虫API 的三种集成方式(Realtime、Push-Pull、Proxy Endpoint),并学习它们在任务提交、格式和工作流上的区别。
这有帮助吗?
了解 Oxylabs 网页爬虫API 的三种集成方式(Realtime、Push-Pull、Proxy Endpoint),并学习它们在任务提交、格式和工作流上的区别。
网页爬虫API支持 三种集成方式, 每种方式都有其独特优势:
Realtime。此方式是同步的。这意味着在发送任务提交请求后, 你需要保持连接打开 直到我们成功完成你的任务或返回错误。对于需要即时响应的实时数据提取,这种集成方式最合适。你可以发送包含爬取和解析参数的 JSON 负载,而 API 会自动处理代理管理、重试和反机器人系统。
Push-Pull (支持批量查询)。此集成方式是 异步。这意味着在提交任务后,我们会快速返回一个包含任务信息的 JSON,其中包括用于下载结果/检查任务状态的 URL。等我们完成任务处理后,我们将 POST 向你的服务器发送任务完成通知,此时你就可以下载结果。此集成方式还支持将结果直接上传到你的(AWS S3 或 Google Cloud Storage)。
Push-Pull 是我们推荐的集成方式,适合可靠地处理大量数据。
Proxy Endpoint。此方式也是同步的(与 Realtime 类似),但不是通过 RESTful 接口使用我们的服务, 可以像使用代理一样使用我们的端点。如果你以前用过代理,并且只想从我们这里获取未被阻止的内容,请使用 Proxy Endpoint。
所有 API 连接的生存时间(TTL)设置为 150 秒。需要注意的是,在极少数情况下,连接可能会在收到响应之前超时。系统负载过高或任务提交极其复杂等因素都可能导致超时。
这有帮助吗?
这有帮助吗?

