云存储
将抓取结果直接检索到你的 S3、GCS、OSS 或其他兼容 S3 的存储中。
网页爬虫API 作业结果存储在我们的存储中。你可以通过 GET获取 /results 端点,从我们的存储中获取你的结果。
或者,我们也可以将结果上传到你的云存储。这样,你无需发起额外请求来获取结果——所有内容都会直接进入你的存储桶。
云存储集成仅适用于 Push-Pull 集成方法。
目前,我们支持以下云存储服务:
如果你想使用其他类型的存储,请联系你的客户经理以讨论该功能的交付时间表。
上传路径如下所示: YOUR_BUCKET_NAME/job_ID.json。你可以在提交作业后从我们收到的响应中找到作业 ID。
输入
storage_type
你的云存储类型。
gcs (Google Cloud Storage);
s3 (AWS S3); tos (BytePlus TOS);
s3_compatible (任何兼容 S3 的存储)。
storage_url
你的云存储桶名称 / URL。
任何
s3,gcs,或tos存储桶名称;任何
兼容 S3 的存储 URL。
Google Cloud Storage
下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Google Cloud Storage 存储桶中。
要将你的作业结果上传到你的 Google Cloud Storage 存储桶,请按如下所示为我们的服务设置特殊权限:
创建自定义角色

添加 storage.objects.create 权限

将其分配给 Oxylabs
在 New members 字段中,输入以下 Oxylabs 服务账号电子邮件:

Amazon S3
下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Amazon S3 存储桶中。
要将你的作业结果上传到你的 Amazon S3 存储桶,请为我们的服务设置访问权限。为此,请前往 https://s3.console.aws.amazon.com/ → S3 → 存储 → 存储桶名称 (如果你还没有,请新建一个) → 权限 → 存储桶策略.

你可以在下方或代码示例区域中找到附带的存储桶策略。
不要忘记将 YOUR_BUCKET_NAME下的存储桶名称替换掉。此策略允许我们写入你的存储桶、授予你对已上传文件的访问权限,并获知存储桶的位置。
Alibaba Cloud Object Storage Service (OSS)
下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Alibaba Cloud OSS 存储桶中。
构建存储 URL
存储 URL 格式:
目前, 我们不能上传到根存储桶。请为你的上传提供一个具体的文件夹名称。
你可以在这里找到你的存储桶的 BUCKET_NAME 和 oss-REGION :

创建 Access Key 和 Secret
为了在 Alibaba Cloud OSS 中使用兼容 S3 的接口,你必须创建 ACCESS_KEY_ID 和 ACCESS_KEY_SECRET ,如下所示。更多信息,请参见
如何使用 Amazon S3 SDK 访问 OSS.
前往 AccessKey Account Menu

登录 RAM console
使用 RAM console 访问 Alibaba Cloud 账号 或 RAM User ,且其具有管理员权限。
前往 Identities → Users (在左侧导航窗格中)
选择 Create User 并使用 RAM User AccessKey:


向 RAM User 授予权限
新创建的 RAM User 没有任何权限。你必须向 RAM User 授予 AliyunOSSFullAccess 权限。然后,RAM User 就可以访问所需的 Alibaba Cloud 资源。更多信息,请参见 向 RAM 用户授予权限.

获取你的 AccessKey ID 和 AccessKey Secret
授予权限后,返回 Authentication 部分,然后在 Access Key 部分中,选择 Create AccessKey。选择为 Third-Party service创建一个 Access Key。然后你将看到一个 ACCESS_KEY_ID 和 ACCESS_KEY_SECRET,随后你就可以在请求中使用它。
Alibaba OSS 速率限制
当并发上传到 Alibaba OSS 时,可能会触发其账号/存储桶速率限制,上传将开始因以下错误而超时:

在这种情况下,请联系 Alibaba OSS 支持以提高你的 OSS 速率限制。
BytePlus TOS
你可以将抓取结果直接上传到 BytePlus Torch Object Storage (TOS) 存储桶。
要成功连接,你需要:
一个正确配置的 TOS 存储桶。
你的访问密钥和密钥。
一个兼容 S3 的端点。
你可以在 BytePlus 官方 文档.
示例
下面的载荷将抓取 https://example.com 并将结果上传到你的 TOS 存储桶。
参数
storage_type
tos
指定 BytePlus TOS 作为存储提供方。
storage_url
URL 字符串
指向你的 TOS 存储桶的已认证 URL(见下方格式)。
存储 URL 格式
该 storage_url 必须使用你的 TOS 凭据和存储桶详细信息来构建。
access_key
你的 BytePlus access key ID。
secret_key
你的 BytePlus secret access key。
endpoint
区域特定端点(例如, tos-cn-hongkong.bytepluses.com).
bucket_name
目标存储桶名称。
path
(可选) 存储桶的特定文件夹路径。
如果你的 Access Key 或 Secret Key 包含特殊字符(例如 /, +,或 =),它们 必须进行 URL 编码 然后再构建该字符串。
输出文件命名
Oxylabs 会根据作业详情自动为已上传对象生成文件名:
HTML/内容:
{query_id}_{timestamp}.html解析后的数据:
{query_id}_results.json
文件将在你的存储桶中的以下位置可访问: tos://{bucket_name}/{path}/{filename}
其他兼容 S3 的存储
如果你想将结果发送到兼容 S3 的存储位置,你必须在你的存储桶的 ACCESS_KEY:SECRET 认证字符串包含在载荷中的 storage_url 值里:
这有帮助吗?

