Oxylabs Documentation
搜索文档…
入门

创建作业

要使用我们的爬虫API 开始抓取, 请遵循以下简单步骤:
  1. 1.
    选择您想在您所使用的爬虫API 下抓取的域名。
    • 例如,如果您正在尝试使用我们的 SERP 爬虫 API, 您可以选择抓取 GoogleBaidu或任何其他搜索引擎。我们的 爬虫API 在菜单左侧。
  2. 2.
    在所选域下选择您喜欢的页面类型。
    • 例如,如果您想抓取 Google, 则可通过提供一个 URL 到您的目标页面,或者通过专门建立的页面类型提供一些输入参数(例如, SearchAds 和其他),这样我们便可在我们的终端形成 URL。
  3. 3.
    组建一个查询 并将其发送到我们的 API。
    • 在您所选页面类型或域名下,您会发现不同编程语言的代码示例。使用它们来建立您的查询,并确保始终包括以下元素:
      • 端点。在所有代码示例中,我们发送POST 请求到 Realtime 端点 (https://realtime.oxylabs.io/v1/queries)。如果您决定使用另一种整合方法则可能必须将您的查询提交给另一个端点。
      • 内容类型提交作业时,始终发送 content-type: application/json 标头。
      • 有效载荷.它是一个查询参数的集合,详细说明了您希望我们服务执行的作业。注意强制性、参数(sourcequery, 或 ULR)。它们在查询参数表中被标记为绿色。您可以使用这些强制性参数提出一个非常基本的请求,或者添加各种额外参数(例如,geo_locationuser_agent_type等)。
      • Username and password. You must provide your API user credentials. Otherwise, your query won't work. Our Scraper APIs use basic HTTP authentication.
      • 用户名Password。您必须提供您的 API 用户凭证。否则,您的查询就不会成功。我们的爬虫API 使用基本的 HTTP 身份验证。
重要事项:始终将所提供代码示例中的 USERNAMEPASSWORD 替换为您的 API 用户凭证。查看身份验证部分了解更多信息。

手动测试工具

如果您想在大规模使用 API 之前手动尝试一下,我们建议使用 Postman。在每个域下,您会发现其 Postman 集合,您可以将其导入 Postman 并立即开始抓取。这些集合包含各种来源和集成方法的请求模板。

有用链接

  • 我们极力建议您访问我们的 API 参考部分以高效地使用和整合我们的爬虫API。您会发现关于整合方法、全局参数值、响应代码和用量统计的信息。
  • 随时可通过查询以下端点查看历史用量统计GET https://data.oxylabs.io/v2/stats亦可返回月度或每日统计。请访问以下部分了解更多信息。
  • 查看我们的Scraper API Scheduler功能。它可用于重复性的抓取和解析作业。
  • 测试一下爬虫 API 功能Crawler:这是一款让您抓取任何网站并选择有用内容并将其批量交付给您。
  • 查阅 Oxylabs GitHub 获取关于如何使用最流行的编程语言(如 C#、Java、NodeJs、PHP、Python等)抓取网站、使用我们的工具、推行产品或整合产品的教程。
如果您没有找到您想搜索的或是需要帮助,请通过官网微信、QQ,或24/7实时对话联系我们。
复制链接
大纲
创建作业
手动测试工具
有用链接