Renderizado de JavaScript
Aprende a usar el parámetro render en la Web Scraper API para que puedas raspar páginas dinámicas de forma eficiente.
Si la página que desea raspar requiere JavaScript para cargar dinámicamente todos los datos necesarios en el DOM, puede incluir un user_agent_type parámetro en sus solicitudes en lugar de configurar y usar un navegador sin interfaz manualmente. Las solicitudes con este parámetro se renderizarán completamente y los datos se almacenarán ya sea en un archivo HTML o en una captura de pantalla PNG, según el parámetro especificado.
HTML
Establezca el user_agent_type parámetro en html para obtener la salida cruda de la página renderizada.
PNG (Captura de pantalla)
Establezca el user_agent_type parámetro en png para obtener una captura de pantalla codificada en Base64 de la página renderizada.
o escribe a nuestro soporte en chat en vivo 24/7.
curl --user "user:pass" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://www.example.com", "render": "html"}'import requests
from pprint import pprint
# Estructurar payload.
payload = {
'source': 'universal',
'url': 'https://www.example.com',
'render': 'html',
}
# Obtener respuesta.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
json=payload
# En lugar de una respuesta con el estado del trabajo y la URL de resultados, esto devolverá la
pprint(response.json())El renderizado de JavaScript tarda más tiempo en raspar la página. Establezca el tiempo de espera en el lado del cliente a 180 segundos si usa los métodos de integración Realtime o Proxy Endpoint.
Para garantizar el menor consumo de tráfico, nuestro sistema no carga activos innecesarios durante el renderizado de la página.
Forzar renderizado en páginas específicas
Para un raspado exitoso, algunos tipos de páginas de dominios específicos requieren renderizado debido a su contenido dinámico. Nuestro sistema aplica automáticamente el renderizado para estas páginas, incluso si el usuario no lo establece explícitamente.
Tenga en cuenta que los trabajos renderizados consumen más tráfico en comparación con los trabajos no renderizados.
Queremos que nuestros usuarios sean plenamente conscientes de esto al raspar las siguientes páginas:
Este enfoque proporciona la mejor experiencia de raspado posible, garantizando la precisión y fiabilidad de los datos de estas páginas difíciles.
Si desea desactivar el renderizado, puede hacerlo agregando el siguiente parámetro a sus solicitudes:
Instrucciones del navegador
Con nuestro Headless Browser también puede ejecutar varias instrucciones del navegador como hacer clic, desplazarse, introducir texto, esperar y más. Lee más:
Instrucciones del navegadorÚltima actualización
¿Te fue útil?

