集成方法
探索 Oxylabs 网页爬虫 API 的三种集成方法(Realtime、Push-Pull、Proxy Endpoint),并了解它们在任务提交、格式和工作流上的差异。
网页爬虫 API 支持 三种集成方式, 每种方式都有其独特的优点:
Realtime。此方法是同步的。这意味着在发送作业提交请求后, 您必须保持连接打开 直到我们成功完成您的作业或返回错误。此集成方法非常适合当您希望向我们的 API 发送包含抓取和解析作业描述的 JSON 负载时,其中可包括一些高级抓取参数。
Push-Pull (支持批量查询)。此集成方法是 异步的。这意味着在提交您的作业后,我们会快速返回一个包含作业信息的 JSON,其中包括用于下载结果/检查作业状态的 URL。一旦我们完成处理您的作业,我们将
POST向您的服务器发送有关作业完成的通知,届时您就可以下载结果。此集成方法还支持将结果直接上传到您的 (AWS S3 或 Google Cloud Storage)。
Push-Pull 是我们推荐的集成方法,用于可靠地处理大量数据。
Proxy Endpoint。此方法也是同步的(与 Realtime 类似),但不是通过 RESTful 接口使用我们的服务,您 可以像使用代理一样使用我们的端点。如果您以前使用过代理并且只是想从我们这里获取未被屏蔽的内容,请使用 Proxy Endpoint。
最后更新于
这有帮助吗?

