JavaScript 渲染

如果您要抓取的页面需要加载 JavaScript 才能将所有必需数据动态加载到 DOM 中,与其自己设置并使用无头浏览器,不如在请求中包含 "X-Oxylabs-Render: html" 请求中包含此头的所有请求将被完全渲染,所有数据将以 HTML 文件或 PNG 截图的形式存储(取决于传入的参数)。

JavaScript 渲染抓取页面需要更多时间。使用 JavaScript 渲染时,请将客户端超时时间设置为 180 秒。

此参数有两个可用值:

  • html (渲染页面的 HTML)

  • png (可以保存为 PNG 的原始字节)

代码示例

curl -k -v -x https://unblock.oxylabs.io:60000 \
-U 'USERNAME:PASSWORD' \
'https://ip.oxylabs.io/location' \
-H 'X-Oxylabs-Render: html'

抓取网站 HTML

在此示例中,我们将渲染 YouTube 主页并抓取页面内容。通常如果在不使用 Javascript 渲染的情况下使用 Web Unblocker,YouTube 主页会看起来像这样:

未启用 JavaScript 渲染的 YouTube 页面示例

添加 "X-Oxylabs-Render: html" 如下示例中提供的头将启用 JavaScript 渲染并返回渲染后的页面 HTML:

在浏览器中打开的 HTML 文件应如下所示:

获取完全渲染页面的截图

要获取 PNG 格式的截图而不是页面 HTML,需要提供 "X-Oxylabs-Render: png" 头。

响应将包含可保存为 PNG 格式并按下面示例打开的图像原始字节:

以 PNG 格式截图的 YouTube 页面示例

在特定页面上强制渲染

为成功抓取,某些特定域的页面类型由于其动态内容需要渲染。我们的系统会自动对这些页面强制进行渲染,即使用户未明确设置。

在抓取以下页面时,我们希望用户充分意识到这一点:

这种方法能提供尽可能好的抓取体验,确保从这些具有挑战性的页面中获取准确且可靠的数据。

如果您希望禁用渲染,请发送不带值的渲染头

最后更新于

这有帮助吗?