Documentation has been updated: see help center and changelog in one place.

集成方法

探索 Oxylabs 网页爬虫 API 的三种集成方法(Realtime、Push-Pull、Proxy Endpoint),并了解它们在任务提交、格式和工作流方面的差异。

网页爬虫API支持 三种集成方法, 每种方法都有其独特的优势:

  • Realtime。该方法是同步的。 这意味着在发送作业提交请求后, 您必须保持连接打开 直到我们成功完成您的作业或返回错误。 如果您想将包含一些高级抓取参数的抓取和解析作业描述的 JSON 有效负载发送到我们的 API,则此集成方法非常适合。

  • Push-Pull (支持批量查询)。此集成方法是 异步的。这意味着在提交您的作业后,我们会快速返回包含作业信息的 JSON,包括用于下载结果/检查作业状态的 URL。 一旦我们完成对您的作业的处理,我们将 POST 向您的服务器发送有关作业完成的通知,届时您可以继续下载结果。 此集成方法还支持将结果直接上传到您的 (AWS S3 或 Google Cloud Storage)。

  • Proxy Endpoint。此方法也是同步的(与 Realtime 类似),但不是通过 RESTful 接口使用我们的服务,您 可以像使用代理一样使用我们的端点。如果您以前使用过代理并且只想从我们这里获取未被封锁的内容,请使用 Proxy Endpoint。

生存时间(TTL)对于所有 API 连接设置为 150 秒。需要注意的是,在极少数情况下,连接可能在收到响应之前超时。诸如系统负载或极其复杂的作业提交之类的因素可能导致超时。

最后更新于

这有帮助吗?