浏览器指令

关于在使用 Web Scraper API 时如何定义浏览器指令以处理复杂动态页面的信息。

您可以定义在渲染 JavaScript 时执行的自定义浏览器指令。

用法

要使用浏览器指令,请提供一组 browser_instructions 在创建任务时。

假设您想在网站中搜索术语 pizza boxes

示例任务参数如下所示:

步骤 1。 您必须提供 "render": "html" 参数。

步骤 2。 浏览器指令应在以下字段中描述 "browser_instructions" 字段。

上面的示例浏览器指令指定目标是在搜索字段中输入搜索词 pizza boxes ,点击 search 按钮并等待 5 秒以加载内容。

抓取结果应如下所示:

抓取到的 HTML 应如下所示:

正在获取浏览器资源

我们提供了一个用于获取浏览器资源的独立浏览器指令。

该函数在此定义:

使用 fetch_resource 将导致任务返回第一个匹配所提供格式的 Fetch/XHR 资源,而不是目标 HTML。

假设我们想定位在浏览器中以自然方式访问产品页面时获取的 GraphQL 资源。我们将提供如下任务信息:

这些指令将产生如下结果:

支持的浏览器指令列表

指令列表

状态代码

请参阅我们在此概述的响应代码 此处.

有关指令验证的状态代码已记录在案 此处.

错误和警告

如果您的浏览操作导致错误或警告,您将在结果中相关键下找到它们 browser_instructions_errorbrowser_instructions_warnings。例如,如果您发送了以下浏览器指令且页面上未找到预期的 xpath,则结果将包含警告。

browser_instructions:

结果:

可能的错误和警告

将浏览器指令转换为操作时发生了意外错误。

执行时发生意外错误 {action.type} 浏览器指令。

操作 {action.type} 超时。

无法找到选择器类型 {selector.type} 其值为 {selector.value} 在页面上。

最后更新于

这有帮助吗?