Otimização de tráfego

Seus scripts de automação frequentemente baixam recursos desnecessários como imagens, folhas de estilo, fontes e outros arquivos de mídia. Esses arquivos consomem largura de banda e podem deixar suas operações de scraping mais lentas.

Você pode bloquear completamente o carregamento desses recursos desnecessários. Interceptando requisições de rede e bloqueando seletivamente arquivos de mídia, você pode focar apenas nos dados que realmente precisa.

Esses trechos de código funcionam tanto com Playwright quanto com Puppeteer para bloquear recursos de mídia antes que sejam baixados:

async def block_resources(route):
    request = route.request
    resource_type = request.resource_type
    if resource_type in ['image', 'stylesheet', 'media', 'font']:
        await route.abort()
    else:
        await route.continue_()
await page.route('**/*', block_resources)

Atualizado

Isto foi útil?