探索 Oxylabs Web Scraper API 的三种集成方法(Realtime、Push-Pull、Proxy Endpoint),并了解它们在任务提交、格式和工作流上的差异。
网页爬虫API支持 三种集成方式, 每种方式都有其独特优势:
Realtime。该方法是同步的。这意味着在发送作业提交请求后, 您需要保持连接打开 直到我们成功完成您的作业或返回错误。此集成方式非常适合向我们的API发送包含抓取和解析作业描述的JSON负载,包括一些高级抓取参数。
Push-Pull (支持批量查询)。此集成方式是 异步的。这意味着在提交作业后,我们会快速返回包含作业信息的JSON,其中包括用于下载结果/检查作业状态的URL。一旦我们处理完成您的作业,我们将 POST 向您的服务器发送有关作业完成的通知,此时您可以下载结果。此集成方式还支持将结果直接上传到您的 (AWS S3或Google Cloud Storage)。
POST
Push-Pull 是我们推荐的集成方式,用于可靠地处理大量数据。
Proxy Endpoint。此方法同样是同步的(如 Realtime),但您不是通过RESTful接口使用我们的服务, 您可以像使用代理一样使用我们的端点。如果您以前使用过代理且只是想从我们这里获取未被屏蔽的内容,请使用 Proxy Endpoint。
生存时间(TTL)对于所有API连接设置为 150 秒。需要注意的是,在极少数情况下,连接可能在收到响应前超时。系统负载或极其复杂的作业提交等因素可能导致超时。
最后更新于9天前
这有帮助吗?