Otimização de tráfego

Saiba sobre estratégias principais para otimizar o tráfego do Headless Browser ao usar Playwright e Puppeteer

Seus scripts de automação frequentemente baixam recursos desnecessários, como imagens, folhas de estilo, fontes e outros arquivos de mídia. Esses arquivos consomem largura de banda e podem desacelerar suas operações de scraping.

Você pode bloquear completamente o carregamento desses recursos desnecessários. Interceptando requisições de rede e bloqueando seletivamente arquivos de mídia, você pode focar apenas nos dados que realmente precisa.

Esses trechos de código funcionam tanto com Playwright quanto com Puppeteer para bloquear recursos de mídia antes que sejam baixados:

async def block_resources(route):
    request = route.request
    resource_type = request.resource_type
    if resource_type in ['image', 'stylesheet', 'media', 'font']:
        await route.abort()
    else:
        await route.continue_()
await page.route('**/*', block_resources)

Atualizado

Isto foi útil?