Optimización del tráfico
Tus scripts de automatización a menudo descargan recursos innecesarios como imágenes, hojas de estilo, fuentes y otros archivos multimedia. Estos archivos consumen ancho de banda y pueden ralentizar tus operaciones de scraping.
Puedes bloquear completamente la carga de estos recursos innecesarios. Al interceptar las solicitudes de red y bloquear selectivamente archivos multimedia, puedes centrarte solo en los datos que realmente necesitas.
Estos fragmentos de código funcionan tanto con Playwright como con Puppeteer para bloquear recursos multimedia antes de que se descarguen:
async def block_resources(route):
request = route.request
resource_type = request.resource_type
if resource_type in ['image', 'stylesheet', 'media', 'font']:
await route.abort()
else:
await route.continue_()
await page.route('**/*', block_resources)await page.route('**/*', (route) => {
const request = route.request();
const type = request.resourceType();
if (['image', 'stylesheet', 'media', 'font'].includes(type)) {
return route.abort();
}
return route.continue();
});Última actualización
¿Te fue útil?

