云存储
将抓取结果直接检索到您的 S3、GCS、OSS 或其他兼容 S3 的存储中。
Scraper API 作业结果存储在我们的存储中。您可以通过从我们的存储中 GET获取 /results 端点的结果。
作为替代,我们可以将结果上传到您的云存储。这样,您无需发出额外请求来获取结果——所有内容都会直接发送到您的存储桶。
云存储集成仅适用于 Push-Pull 集成方法。
目前,我们支持以下云存储服务:
如果您想使用其他类型的存储,请联系您的客户经理以讨论功能交付时间表。
上传路径如下所示: YOUR_BUCKET_NAME/job_ID.json。您可以在提交作业后我们返回的响应中找到作业 ID。
输入
storage_type
您的云存储类型。
gcs (Google Cloud Storage);
s3 (AWS S3); tos (BytePlus TOS);
s3_compatible (任何兼容 S3 的存储)。
storage_url
您的云存储存储桶名称 / URL。
任意
s3,gcs,或tos存储桶名称;任意
s3-兼容存储 URL。
Google Cloud Storage
下面的负载使 Web Scraper API 抓取 https://example.com 并将结果放到 Google Cloud Storage 存储桶中。
要将作业结果上传到您的 Google Cloud Storage 存储桶,请为我们的服务设置如下所示的特殊权限:
创建自定义角色

添加 storage.objects.create 权限

将其分配给 Oxylabs
在 新成员 字段中,输入以下内容 Oxylabs 服务账号邮件:

Amazon S3
下面的负载使 Web Scraper API 抓取 https://example.com 并将结果放到 Amazon S3 存储桶中。
要将作业结果上传到您的 Amazon S3 存储桶,请为我们的服务设置访问权限。为此,请前往 https://s3.console.aws.amazon.com/ → S3 → 存储 → 存储桶名称 (如果没有,请创建一个) → 权限 → 存储桶策略.

您可以在下方或代码示例区域找到附加的存储桶策略。
别忘了在 YOUR_BUCKET_NAME下更改存储桶名称。此策略允许我们向您的存储桶写入、授予您对已上传文件的访问权限,并识别存储桶的位置。
Alibaba Cloud Object Storage Service (OSS)
下面的负载使 Web Scraper API 抓取 https://example.com 并将结果放到 Alibaba Cloud OSS 存储桶中。
形成存储 URL
存储 URL 格式:
目前, 我们无法上传到根存储桶。请为您的上传提供一个特定的文件夹名称。
您可以在以下位置找到 BUCKET_NAME 和 oss-REGION 的信息:

创建 Access Key 和 Secret
为了使用与 Alibaba OSS 的 S3 兼容接口,您必须创建 ACCESS_KEY_ID 和 ACCESS_KEY_SECRET 如下所示。有关更多信息,请参见
如何使用 Amazon S3 SDK 访问 OSS.
转到 AccessKey 帐户菜单

登录到 RAM 控制台
访问 RAM 控制台 使用 Alibaba Cloud 帐户 或 RAM 用户 拥有管理员权限的用户。
转到 身份 → 用户 在左侧导航窗格中
选择 创建用户 并使用 RAM User AccessKey:


授予 RAM 用户权限
新创建的 RAM 用户没有权限。您必须授予 AliyunOSSFullAccess 权限给该 RAM 用户。然后,RAM 用户即可访问所需的 Alibaba Cloud 资源。有关更多信息,请参见 向 RAM 用户授予权限.

获取您的 AccessKey ID 和 AccessKey Secret
授予权限后,返回到 身份验证 部分并在 访问密钥 部分,选择 创建 AccessKey。选择为 第三方服务创建 Access Key。 ACCESS_KEY_ID 和 ACCESS_KEY_SECRET然后您会看到一个
Alibaba OSS 速率限制
在对 Alibaba OSS 进行并发上传时,可能会触及其账户/存储桶的速率限制,上传将开始因以下错误而超时:

在这种情况下,请联系 Alibaba OSS 支持以增加您的 OSS 速率限制。
BytePlus TOS
您可以将抓取的结果直接上传到 BytePlus Torch Object Storage (TOS) 存储桶。请注意,您必须正确设置您的 存储桶 并且同时拥有您的 访问密钥 和 密钥 以用于云存储访问。
下面的示例负载使 Web Scraper API 抓取 https://example.com 并将结果放到 BytePlus TOS 存储桶中。
参数
storage_type
tos
指定 BytePlus TOS 作为存储提供商。
storage_url
字符串(URL)
到您的 TOS 存储桶的已认证 URL(见下方格式)。
存储 URL 格式
该 storage_url 必须使用您的 TOS 凭据和存储桶详细信息构造。
access_key
您的 BytePlus 访问密钥 ID。
secret_key
您的 BytePlus 秘密访问密钥。
endpoint
区域特定的端点(例如, tos-cn-hongkong.bytepluses.com).
bucket_name
目标存储桶名称。
path
(可选) 存储桶的特定文件夹路径。
如果您的 Access Key 或 Secret Key 包含特殊字符(例如 /, +,或 =),它们 必须在构造字符串之前进行 URL 编码 。
输出文件命名
Oxylabs 会根据作业详细信息自动为上传的对象生成文件名:
HTML/内容:
{query_id}_{timestamp}.html解析数据:
{query_id}_results.json
文件将在您的存储桶中可通过以下路径访问: tos://{bucket_name}/{path}/{filename}
其他兼容 S3 的存储
如果您希望将结果传送到兼容 S3 的存储位置,您必须在负载的 ACCESS_KEY:SECRET 值中包含您的存储桶 storage_url 认证字符串:
最后更新于
这有帮助吗?

