了解 网页爬虫API 速率限制、任务提交速度,以及域名成功率如何影响你的限制。
网页爬虫API 用户账户会附带一个特定的作业提交速率限制,按你的套餐定制。这些限制旨在有效满足你的月度订阅需求。
你可以提交作业的速率取决于你的套餐大小。请参阅下表,了解常规套餐和企业套餐的速率限制明细:
免费试用
2,000
10
3
Micro
98,000
50
13
Starter
220,000
Advanced
622,500
Venture
1,350,000
Business
3,330,000
100
25
Corporate
8,000,000
Custom +
Custom
每当您向我们的系统提交任务时,我们都会在响应头中发送速率限制信息。头名称将采用如下格式 x-ratelimit-limit_name-limit 和 x-ratelimit-limit_name-remaining。前者表示总限制值,后者表示剩余值。可能适用于您的限制不止一个。
x-ratelimit-limit_name-limit
x-ratelimit-limit_name-remaining
网页爬虫API会持续监控你抓取的每个域名的成功率。如果你在任一域名上的成功率低于 40%(按最近 5 分钟窗口统计),你对该特定域名的请求速率将被限制为 1 req/s,直到成功率恢复。
你可能会因两个原因而出现较低的成功率:
网页爬虫API无法突破网站的反爬虫措施;
你自己的 Cookie、请求头或其他变量干扰了网页爬虫API的解封逻辑。
当你对某个域名的请求因成功率过低而受限时,你将收到一个带有 429 状态码和以下消息的 API 响应:
429
收到此响应后,请确保你的请求参数不是导致此问题的原因。
这有帮助吗?
{ "message": "由于成功率过低,访问 {domain} 已被限制为 1 req/s。如果你正在使用自定义请求头或 Cookie,请确保它们正确,然后重试。当成功率提高时,正常请求限制将自动恢复。" }