Armazenamento em Nuvem

Recupere seus resultados raspados diretamente no seu S3, GCS, OSS ou outro armazenamento compatível com S3.

Os resultados de jobs da Scraper API são armazenados em nosso storage. Você pode obter seus resultados do nosso storage por GETfazendo o /results endpoint.

Como alternativa, podemos enviar os resultados para seu armazenamento em nuvem. Dessa forma, você não precisa fazer requisições extras para buscar os resultados — tudo vai diretamente para seu bucket de storage.

circle-info

A integração com armazenamento em nuvem funciona apenas com Push-Pull método de integração.

Atualmente, suportamos estes serviços de armazenamento em nuvem:

Se você quiser usar um tipo diferente de armazenamento, por favor entre em contato com seu gerente de conta para discutir o cronograma de entrega do recurso.

O caminho de upload fica assim: SEU_NOME_DO_BUCKET/job_ID.json. Você encontrará o ID do job na resposta que recebe de nós após enviar um job.

Entrada

Parâmetro
Descrição
Valores válidos

storage_type

Seu tipo de armazenamento em nuvem.

gcs (Google Cloud Storage);

s3 (AWS S3);

s3_compatible (qualquer armazenamento compatível com S3).

storage_url

O nome do bucket / URL do seu armazenamento em nuvem.

  • Qualquer s3 ou gcs nome do bucket;

  • Qualquer s3-compatível URL do storage.

Google Cloud Storage

O payload abaixo faz o Web Scraper API raspar https://example.com e colocar o resultado em um bucket do Google Cloud Storage.

{
    "source": "universal",
    "query": "https://example.com",
    "storage_type": "gcs",
    "storage_url": "bucket_name/path"
}

Para que seus resultados de job sejam enviados para seu bucket do Google Cloud Storage, por favor configure permissões especiais para nosso serviço conforme mostrado abaixo:

1

Crie uma role personalizada

2

Adicione storage.objects.create permissão

3

Atribua-a à Oxylabs

No Novos membros campo, insira o seguinte e-mail da conta de serviço da Oxylabs:

Amazon S3

O payload abaixo faz o Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Amazon S3.

Para que seus resultados de job sejam enviados para seu bucket do Amazon S3, por favor configure permissões de acesso para nosso serviço. Para isso, vá para https://s3.console.aws.amazon.com/arrow-up-rightS3StorageNome do Bucket (se você não tiver um, crie um novo)PermissõesBucket Policy.

Você pode encontrar a política do bucket anexada abaixo ou na área de exemplos de código.

política do bucket s3

Não se esqueça de alterar o nome do bucket em SEU_NOME_DO_BUCKET. Esta política nos permite gravar no seu bucket, dar acesso aos arquivos enviados para você e conhecer a localização do bucket.

Alibaba Cloud Object Storage Service (OSS)

O payload abaixo faz o Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Alibaba Cloud OSS.

Formando a URL de Storage

Formato da URL de Storage:

circle-exclamation

Aqui é onde você encontrará o BUCKET_NAME e oss-REGION do seu bucket:

Criando o Access Key e Secret

Para usar a interface compatível com S3 do Alibaba OSS, você deve criar o ACCESS_KEY_ID e ACCESS_KEY_SECRET conforme mostrado abaixo. Para mais informações, veja Como usar os SDKs do Amazon S3 para acessar o OSSarrow-up-right.

1

Vá para o Menu de Conta AccessKey

2

Faça login no RAM console

Acesse o RAM consolearrow-up-right usando uma conta Alibaba Cloud ou um RAM user que tenha direitos administrativos.

3

Vá para Identidades Usuários no painel de navegação à esquerda

4

Selecione Criar Usuário e use o RAM User AccessKey:

5

Conceda permissões ao usuário RAM

O usuário RAM recém-criado não tem permissões. Você deve conceder AliyunOSSFullAccess permissões ao usuário RAM. Então, o usuário RAM poderá acessar os recursos necessários da Alibaba Cloud. Para mais informações, veja Conceder permissões a usuários RAMarrow-up-right.

6

Obtenha seu AccessKey ID e AccessKey Secret

Quando as permissões forem concedidas, volte para a Autenticação seção e, na seção Access Key , selecione Criar AccessKey. Escolha criar uma Access Key para um serviço Third-Party. Você então verá um ACCESS_KEY_ID e ACCESS_KEY_SECRET, que você poderá usar em suas requisições.

Limites de taxa do Alibaba OSS

Ao fazer uploads concorrentes para o Alibaba OSS, é possível atingir os limites de taxa da conta/bucket, e os uploads começarão a expirar com o seguinte erro:

Nesse caso, por favor contate o suporte do Alibaba OSS para aumentar seus limites de taxa do OSS.

Outro armazenamento compatível com S3

Se você quiser que seus resultados sejam entregues em um local de armazenamento compatível com S3, você terá que incluir a ACCESS_KEY:SECRET string de autenticação do seu bucket no storage_url valor no payload:

Atualizado

Isto foi útil?