云存储

将抓取结果直接检索到你的 S3、GCS、OSS 或其他兼容 S3 的存储中。

网页爬虫API 作业结果存储在我们的存储中。你可以通过 GET获取 /results 端点,从我们的存储中获取你的结果。

或者,我们也可以将结果上传到你的云存储。这样,你无需发起额外请求来获取结果——所有内容都会直接进入你的存储桶。

云存储集成仅适用于 Push-Pull 集成方法。

目前,我们支持以下云存储服务:

如果你想使用其他类型的存储,请联系你的客户经理以讨论该功能的交付时间表。

上传路径如下所示: YOUR_BUCKET_NAME/job_ID.json。你可以在提交作业后从我们收到的响应中找到作业 ID。

输入

参数
描述
有效值

storage_type

你的云存储类型。

gcs (Google Cloud Storage);

s3 (AWS S3); tos (BytePlus TOS);

s3_compatible (任何兼容 S3 的存储)。

storage_url

你的云存储桶名称 / URL。

  • 任何 s3 , gcs ,或 tos 存储桶名称;

  • 任何 兼容 S3 的 存储 URL。

Google Cloud Storage

下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Google Cloud Storage 存储桶中。

要将你的作业结果上传到你的 Google Cloud Storage 存储桶,请按如下所示为我们的服务设置特殊权限:

1

创建自定义角色

2

添加 storage.objects.create 权限

3

将其分配给 Oxylabs

New members 字段中,输入以下 Oxylabs 服务账号电子邮件:

Amazon S3

下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Amazon S3 存储桶中。

要将你的作业结果上传到你的 Amazon S3 存储桶,请为我们的服务设置访问权限。为此,请前往 https://s3.console.aws.amazon.com/S3存储存储桶名称 (如果你还没有,请新建一个)权限存储桶策略.

你可以在下方或代码示例区域中找到附带的存储桶策略。

s3 存储桶策略

不要忘记将 YOUR_BUCKET_NAME下的存储桶名称替换掉。此策略允许我们写入你的存储桶、授予你对已上传文件的访问权限,并获知存储桶的位置。

Alibaba Cloud Object Storage Service (OSS)

下面的载荷会让 网页爬虫API 抓取 https://example.com 并将结果放入 Alibaba Cloud OSS 存储桶中。

构建存储 URL

存储 URL 格式:

你可以在这里找到你的存储桶的 BUCKET_NAMEoss-REGION

创建 Access Key 和 Secret

为了在 Alibaba Cloud OSS 中使用兼容 S3 的接口,你必须创建 ACCESS_KEY_IDACCESS_KEY_SECRET ,如下所示。更多信息,请参见 如何使用 Amazon S3 SDK 访问 OSS.

1

前往 AccessKey Account Menu

2

登录 RAM console

使用 RAM console 访问 Alibaba Cloud 账号RAM User ,且其具有管理员权限。

3

前往 Identities Users (在左侧导航窗格中)

4

选择 Create User 并使用 RAM User AccessKey:

5

向 RAM User 授予权限

新创建的 RAM User 没有任何权限。你必须向 RAM User 授予 AliyunOSSFullAccess 权限。然后,RAM User 就可以访问所需的 Alibaba Cloud 资源。更多信息,请参见 向 RAM 用户授予权限.

6

获取你的 AccessKey IDAccessKey Secret

授予权限后,返回 Authentication 部分,然后在 Access Key 部分中,选择 Create AccessKey。选择为 Third-Party service创建一个 Access Key。然后你将看到一个 ACCESS_KEY_IDACCESS_KEY_SECRET,随后你就可以在请求中使用它。

Alibaba OSS 速率限制

当并发上传到 Alibaba OSS 时,可能会触发其账号/存储桶速率限制,上传将开始因以下错误而超时:

在这种情况下,请联系 Alibaba OSS 支持以提高你的 OSS 速率限制。

BytePlus TOS

你可以将抓取结果直接上传到 BytePlus Torch Object Storage (TOS) 存储桶。

要成功连接,你需要:

  • 一个正确配置的 TOS 存储桶。

  • 你的访问密钥和密钥。

  • 一个兼容 S3 的端点。

你可以在 BytePlus 官方 文档.

示例

下面的载荷将抓取 https://example.com 并将结果上传到你的 TOS 存储桶。

参数

参数
可用值
描述

storage_type

tos

指定 BytePlus TOS 作为存储提供方。

storage_url

URL 字符串

指向你的 TOS 存储桶的已认证 URL(见下方格式)。

存储 URL 格式

storage_url 必须使用你的 TOS 凭据和存储桶详细信息来构建。

组成部分
描述

access_key

你的 BytePlus access key ID。

secret_key

你的 BytePlus secret access key。

endpoint

区域特定端点(例如, tos-cn-hongkong.bytepluses.com).

bucket_name

目标存储桶名称。

path

(可选) 存储桶的特定文件夹路径。

输出文件命名

Oxylabs 会根据作业详情自动为已上传对象生成文件名:

  • HTML/内容: {query_id}_{timestamp}.html

  • 解析后的数据: {query_id}_results.json

文件将在你的存储桶中的以下位置可访问: tos://{bucket_name}/{path}/{filename}

其他兼容 S3 的存储

如果你想将结果发送到兼容 S3 的存储位置,你必须在你的存储桶的 ACCESS_KEY:SECRET 认证字符串包含在载荷中的 storage_url 值里:

这有帮助吗?