浏览器指令
了解在使用网页爬虫API处理复杂动态页面时如何定义浏览器指令。
您可以定义自己的浏览器指令,这些指令会在渲染 JavaScript 时执行。
设置浏览器指令的最简单方式,是使用由 AI 驱动的可视化浏览器指令构建器,位于 Web Scraper API Playground。阅读相关内容 这里.
用法
要使用浏览器指令,请提供一组 browser_instructions 在创建任务时。
假设您想要搜索术语 pizza boxes 在某个网站中。

任务参数示例如下所示:
步骤 1。 您必须提供 "render": "html" 参数。
步骤 2。 浏览器指令应在 "browser_instructions" 字段中描述。
上面的浏览器指令示例指定了目标是输入一个搜索词 pizza boxes 到搜索字段中,点击 搜索 按钮,并等待 5 秒以加载内容。
抓取结果应如下所示:
抓取到的 HTML 应如下所示:

获取浏览器资源
我们提供了一个独立的浏览器指令,用于获取浏览器资源。
该功能定义如下:
使用 fetch_resource 将导致任务返回第一个与所提供格式匹配的 Fetch/XHR 资源,而不是目标 HTML。
假设我们想要定位一个 GraphQL 资源,该资源是在浏览器中自然访问产品页面时获取的。我们将提供如下任务信息:
这些指令将产生如下结果:
支持的浏览器指令列表
指令列表状态码
请查看我们概述的响应代码 这里.
与指令验证相关的状态码记录在 这里.
错误和警告
如果您的浏览操作产生错误或警告,您可以在结果中的以下键下找到它: browser_instructions_error 或 browser_instructions_warnings。例如,如果您发送了以下浏览器指令,而预期的 xpath 在页面上未找到,结果将包含一条警告。
browser_instructions:
结果:
将浏览器指令转换为操作时发生了意外错误。
执行 {action.type} 浏览器指令时发生了意外错误。
操作 {action.type} 超时。
无法找到选择器类型 {selector.type} 其值为 {selector.value} 在页面上。
最后更新于
这有帮助吗?

