renderização de JavaScript

Aprenda sobre o cabeçalho que você pode incluir nas suas solicitações para obter dados totalmente renderizados, que você pode salvar em um arquivo HTML ou como uma captura de tela PNG.

Se a página que você deseja extrair exigir o carregamento de JavaScript para carregar dinamicamente todos os dados necessários no DOM, em vez de configurar e usar um headless browser por conta própria, você pode incluir o "X-Oxylabs-Render: html" header em suas requisições. Todas as requisições com esse header incluído serão totalmente renderizadas, e todos os dados serão armazenados em um arquivo HTML ou em uma captura de tela PNG (dependendo do parâmetro passado).

A renderização de JavaScript leva mais tempo para extrair a página. Ao usar a renderização de JavaScript, defina o valor de timeout do lado do cliente para 180 segundos.

Este parâmetro tem dois valores disponíveis:

  • html (HTML de uma página renderizada)

  • png (bytes brutos que podem ser salvos como PNG)

Exemplos de código

curl -k -v -x https://unblock.oxylabs.io:60000 \
-U 'USERNAME:PASSWORD' \
'https://ip.oxylabs.io/location' \
-H 'X-Oxylabs-Render: html'

Extraindo o HTML de um website

Neste exemplo, vamos renderizar a página inicial do YouTube e extrair o conteúdo da página. Normalmente, a página inicial do Youtube ficaria assim se o Web Unblocker for usado sem renderização de Javascript:

Exemplo da página do Youtube sem renderização de JavaScript

Adicionar o "X-Oxylabs-Render: html" header, como mostrado nos exemplos abaixo, ativará a renderização de Javascript e retornará o HTML de uma página renderizada:

O arquivo HTML aberto em um navegador deve ficar assim:

Obtendo uma captura de tela de uma página totalmente renderizada

Para obter uma captura de tela em formato PNG em vez do HTML da página, é necessário fornecer o "X-Oxylabs-Render: png" cabeçalho.

A resposta conterá bytes brutos de uma imagem que podem ser salvos em formato PNG e abertos como no exemplo abaixo:

Exemplo da página do Youtube como captura de tela em formato PNG

Forçando a renderização em páginas específicas

Para uma extração bem-sucedida, alguns tipos de página de domínios específicos exigem renderização devido ao conteúdo dinâmico. Nosso sistema aplica automaticamente a renderização para essas páginas, mesmo que não seja definida explicitamente pelo usuário.

Queremos que nossos usuários estejam totalmente cientes disso ao extrair as seguintes páginas:

Essa abordagem oferece a melhor experiência de extração possível, garantindo a precisão e a confiabilidade dos dados nessas páginas desafiadoras.

Se você quiser desativar a renderização, envie o header de renderização sem um valor

Isto foi útil?