Documentation has been updated: see help center and changelog in one place.

优化流量

您的自动化脚本经常下载不必要的资源,例如图片、样式表、字体和其他媒体文件。这些文件会消耗带宽并可能减慢爬取操作。

您可以完全阻止这些不必要的资源加载。通过拦截网络请求并有选择地屏蔽媒体文件,您可以只关注实际需要的数据。

以下代码片段可用于 Playwright 和 Puppeteer,在媒体资源下载之前进行阻止:

async def block_resources(route):
    request = route.request
    resource_type = request.resource_type
    if resource_type in ['image', 'stylesheet', 'media', 'font']:
        await route.abort()
    else:
        await route.continue_()
await page.route('**/*', block_resources)

最后更新于

这有帮助吗?