Documentation has been updated: see help center and changelog in one place.

集成方法

探索 Oxylabs 网页爬虫 API 的三种集成方法(Realtime、Push-Pull、Proxy Endpoint),并了解它们在任务提交、格式和工作流上的差异。

网页爬虫 API 支持 三种集成方式, 每种方式都有其独特的优点:

  • Realtime。此方法是同步的。这意味着在发送作业提交请求后, 您必须保持连接打开 直到我们成功完成您的作业或返回错误。此集成方法非常适合当您希望向我们的 API 发送包含抓取和解析作业描述的 JSON 负载时,其中可包括一些高级抓取参数。

  • Push-Pull (支持批量查询)。此集成方法是 异步的。这意味着在提交您的作业后,我们会快速返回一个包含作业信息的 JSON,其中包括用于下载结果/检查作业状态的 URL。一旦我们完成处理您的作业,我们将 POST 向您的服务器发送有关作业完成的通知,届时您就可以下载结果。此集成方法还支持将结果直接上传到您的 (AWS S3 或 Google Cloud Storage)。

  • Proxy Endpoint。此方法也是同步的(与 Realtime 类似),但不是通过 RESTful 接口使用我们的服务,您 可以像使用代理一样使用我们的端点。如果您以前使用过代理并且只是想从我们这里获取未被屏蔽的内容,请使用 Proxy Endpoint。

存活时间(TTL)对于所有 API 连接设置为 150 秒。重要的是要注意,在极少数情况下,连接可能会在收到响应之前超时。系统负载或极其复杂的作业提交等因素可能导致超时。

最后更新于

这有帮助吗?