Renderização de JavaScript
Aprenda a usar o parâmetro render no Web Scraper API para que você possa raspar páginas dinâmicas de forma eficiente.
Se a página que você deseja raspar requer JavaScript para carregar dinamicamente todos os dados necessários no DOM, você pode incluir um render parâmetro em suas requisições ao invés de configurar e usar manualmente um navegador headless. Requisições com este parâmetro serão totalmente renderizadas, e os dados serão armazenados em um arquivo HTML ou em uma captura de tela PNG, dependendo do parâmetro especificado.
HTML
Defina o render parâmetro para html para obter a saída bruta da página renderizada.
PNG (Screenshot)
Defina o render parâmetro para png para obter uma captura de tela codificada em Base64 da página renderizada.
Solicitar exemplo
curl --user "user:pass" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://www.example.com", "render": "html"}'import requests
from pprint import pprint
# Estruturar payload.
payload = {
'source': 'universal',
'url': 'https://www.example.com',
'render': 'html',
}
# Obter resposta.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Em vez de resposta com status do job e URL dos resultados, isso retornará o
# resposta JSON com o resultado.
pprint(response.json())A renderização em JavaScript leva mais tempo para raspar a página. Por favor defina o timeout no lado do cliente para 180 segundos se estiver usando os métodos de integração Realtime ou Proxy Endpoint.
Para garantir o menor consumo de tráfego possível, nosso sistema não carrega recursos desnecessários durante a renderização da página.
Forçando renderização em páginas específicas
Para uma raspagem bem-sucedida, alguns tipos de páginas de domínios específicos exigem renderização devido ao seu conteúdo dinâmico. Nosso sistema aplica automaticamente a renderização nessas páginas, mesmo que não tenha sido explicitamente definida pelo usuário.
Por favor note que jobs renderizados consomem mais tráfego comparado a jobs não renderizados.
Queremos que nossos usuários estejam plenamente cientes disso ao raspar as seguintes páginas:
Essa abordagem fornece a melhor experiência de raspagem possível, garantindo precisão e confiabilidade dos dados dessas páginas desafiadoras.
Se você deseja desativar a renderização, pode fazê-lo adicionando o seguinte parâmetro às suas requisições:
Instruções do navegador
Com nosso Headless Browser você também pode executar várias instruções do navegador como clicar, rolar, digitar, aguardar e mais. Leia mais:
Instruções do NavegadorAtualizado
Isto foi útil?

