Documentation has been updated: see help center and changelog in one place.

云存储

网页爬虫API的作业结果会存储在我们的存储中。您可以通过从我们的存储中 GET/results 端点获取。

作为替代方案,我们可以将结果上传到您的云存储。这样,您无需额外请求来获取结果——所有内容会直接进入您的存储桶。

云存储集成仅适用于 Push-Pull 集成方式。

当前我们支持以下云存储服务:

如果您希望使用其他类型的存储,请联系您的客户经理以讨论功能交付时间表。

上传路径如下所示: YOUR_BUCKET_NAME/job_ID.json。您可以在提交作业后我们返回的响应中找到作业 ID。

输入

参数
说明
有效值

storage_type

您的云存储类型。

gcs (Google Cloud Storage);

s3 (AWS S3);

s3_compatible (任何兼容 S3 的存储)。

storage_url

您的云存储桶名称 / URL。

  • 任意 s3gcs 存储桶名称;

  • 任意 s3-兼容 存储 URL。

Google Cloud Storage

下面的请求体将使网页爬虫 API 抓取 https://example.com 并将结果放到 Google Cloud Storage 存储桶中。

{
    "source": "universal",
    "query": "https://example.com",
    "storage_type": "gcs",
    "storage_url": "bucket_name/path"
}

要将作业结果上传到您的 Google Cloud Storage 存储桶,请按如下设置为我们的服务授予特殊权限:

1

创建自定义角色

2

添加 storage.objects.create 权限

3

将其分配给 Oxylabs

新成员 字段中,输入以下内容 Oxylabs 服务账户邮箱:

Amazon S3

下面的请求体将使网页爬虫 API 抓取 https://example.com 并将结果放到 Amazon S3 存储桶中。

{
    "source": "universal",
    "query": "https://example.com",
    "storage_type": "s3",
    "storage_url": "bucket_name/path"
}

要将作业结果上传到您的 Amazon S3 存储桶,请为我们的服务设置访问权限。为此,请前往 https://s3.console.aws.amazon.com/S3存储存储桶名称 (如果您还没有,请创建一个)权限存储桶策略.

您可以在下面或代码示例区域找到附带的存储桶策略。

s3 存储桶策略

别忘了将下方的存储桶名称更改为 YOUR_BUCKET_NAME。该策略允许我们写入您的存储桶、将已上传文件的访问权限授予您,并知道存储桶的位置。

{
    "Version": "2012-10-17",
    "Id": "Policy1577442634787",
    "Statement": [
        {
            "Sid": "Stmt1577442633719",
            "Effect": "Allow",
            "Principal": {
                "AWS": "arn:aws:iam::324311890426:user/oxylabs.s3.uploader"
            },
            "Action": "s3:GetBucketLocation",
            "Resource": "arn:aws:s3:::YOUR_BUCKET_NAME"
        },
        {
            "Sid": "Stmt1577442633719",
            "Effect": "Allow",
            "Principal": {
                "AWS": "arn:aws:iam::324311890426:user/oxylabs.s3.uploader"
            },
            "Action": [
                "s3:PutObject",
                "s3:PutObjectAcl"
            ],
            "Resource": "arn:aws:s3:::YOUR_BUCKET_NAME/*"
        }
    ]
}

Alibaba Cloud Object Storage Service (OSS)

下面的请求体将使网页爬虫 API 抓取 https://example.com 并将结果放到 Alibaba Cloud OSS 存储桶中。

{
    "source": "universal",
    "query": "https://example.com",
    "storage_type": "s3_compatible",
    "storage_url": "https://ACCESS_KEY_ID:ACCESS_KEY_SECRET@BUCKET_NAME.oss-REGION.aliyuncs.com/FOLDER_NAME"
}

构建存储 URL

存储 URL 格式:

https://ACCESS_KEY_ID:ACCESS_KEY_SECRET@BUCKET_NAME.oss-REGION.aliyuncs.com/FOLDER_NAME

以下位置可找到您的 BUCKET_NAMEoss-REGION

创建 Access Key 和 Secret

为了使用 Alibaba OSS 的 S3 兼容接口,您必须创建 ACCESS_KEY_IDACCESS_KEY_SECRET ,如下所示。更多信息请参见 如何使用 Amazon S3 SDK 访问 OSS.

1

前往 AccessKey 帐户菜单

2

登录到 RAM 控制台

访问 RAM 控制台 通过使用 Alibaba Cloud 帐户RAM 用户 (具有管理员权限)。

3

转到 身份 用户 在左侧导航窗格中

4

选择 创建用户 并使用 RAM User AccessKey:

5

授予 RAM 用户权限

新创建的 RAM 用户没有任何权限。您必须授予 AliyunOSSFullAccess 权限给该 RAM 用户。然后,该 RAM 用户才能访问所需的 Alibaba Cloud 资源。更多信息请参见 向 RAM 用户授予权限.

6

获取您的 AccessKey IDAccessKey Secret

授予权限后,返回到 身份验证 部分,并在 访问密钥 部分中,选择 创建 AccessKey。选择为 第三方服务创建 Access Key。然后您将看到一个 ACCESS_KEY_IDACCESS_KEY_SECRET,可在请求中使用。

Alibaba OSS 速率限制

在对 Alibaba OSS 进行并发上传时,可能会触及其账户/存储桶速率限制,上传将开始超时并出现以下错误:

在这种情况下,请联系 Alibaba OSS 支持以提高您的 OSS 速率限制。

其他兼容 S3 的存储

如果您希望将结果发送到兼容 S3 的存储位置,您必须在您的存储桶中包含 ACCESS_KEY:SECRET 身份验证字符串在请求体的 storage_url 值中:

{
    "source": "universal",
    "url": "https://example.com",
    "storage_type": "s3_compatible",
    "storage_url": "https://ACCESS_KEY:[email protected]/my-videos"
}

最后更新于

这有帮助吗?