Armazenamento em nuvem

Recupere seus resultados raspados diretamente no seu S3, GCS, OSS ou outro storage compatível com S3.

Os resultados de jobs da Scraper API são armazenados em nosso storage. Você pode obter seus resultados do nosso storage por GETfazendo o /results endpoint.

Como alternativa, podemos enviar os resultados para seu armazenamento em nuvem. Assim, você não precisa fazer requisições extras para buscar resultados — tudo vai diretamente para o seu bucket de storage.

circle-info

A integração com storage em nuvem funciona apenas com Push-Pull método de integração.

Atualmente, suportamos estes serviços de storage em nuvem:

Se você quiser usar um tipo diferente de storage, entre em contato com seu gerente de conta para discutir o cronograma de entrega do recurso.

O caminho de upload fica assim: YOUR_BUCKET_NAME/job_ID.json. Você encontrará o ID do job na resposta que receber de nós após enviar um job.

Entrada

Parâmetro
Descrição
Valores válidos

storage_type

Seu tipo de storage em nuvem.

gcs (Google Cloud Storage);

s3 (AWS S3); tos (BytePlus TOS);

s3_compatible (qualquer storage compatível com S3).

storage_url

Nome do bucket / URL do seu storage em nuvem.

  • Qualquer s3 , gcs , ou tos nome do bucket;

  • Qualquer s3-compatible URL do storage.

Google Cloud Storage

O payload abaixo faz o Web Scraper API raspar https://example.com e colocar o resultado em um bucket do Google Cloud Storage.

Para que seus resultados de job sejam enviados para seu bucket do Google Cloud Storage, configure permissões especiais para nosso serviço conforme mostrado abaixo:

1

Crie uma função personalizada

2

Adicione storage.objects.create permissão

3

Atribua-a à Oxylabs

No campo Novos membros, digite o seguinte email da conta de serviço da Oxylabs:

Amazon S3

O payload abaixo faz o Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Amazon S3.

Para que seus resultados de job sejam enviados para seu bucket do Amazon S3, configure permissões de acesso para nosso serviço. Para isso, acesse https://s3.console.aws.amazon.com/arrow-up-rightS3StorageNome do Bucket (se você não tiver um, crie um novo)PermissõesPolítica do Bucket.

Você pode encontrar a política do bucket anexada abaixo ou na área de exemplos de código.

política do bucket s3

Não esqueça de alterar o nome do bucket em YOUR_BUCKET_NAME. Esta política nos permite gravar em seu bucket, dar acesso a você aos arquivos enviados e conhecer a localização do bucket.

Alibaba Cloud Object Storage Service (OSS)

O payload abaixo faz o Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Alibaba Cloud OSS.

Formando a Storage URL

Formato da Storage URL:

circle-exclamation

Aqui é onde você encontrará o BUCKET_NAME e oss-REGION do seu bucket:

Criando o Access Key e Secret

Para usar a interface compatível com S3 no Alibaba OSS, você deve criar o ACCESS_KEY_ID e ACCESS_KEY_SECRET conforme mostrado abaixo. Para mais informações, veja Como usar os SDKs do Amazon S3 para acessar o OSSarrow-up-right.

1

Vá ao Menu de Conta AccessKey

2

Faça login no console RAM

Acesse o console RAMarrow-up-right usando uma conta Alibaba Cloud ou um RAM user que possua direitos administrativos.

3

Vá para Identidades Usuários no painel de navegação à esquerda

4

Selecione Criar Usuário e use o RAM User AccessKey:

5

Conceda permissões ao usuário RAM

O usuário RAM recém-criado não possui permissões. Você deve conceder AliyunOSSFullAccess permissões ao usuário RAM. Então, o usuário RAM poderá acessar os recursos necessários do Alibaba Cloud. Para mais informações, veja Conceder permissões a usuários RAMarrow-up-right.

6

Obtenha seu AccessKey ID e AccessKey Secret

Quando as permissões forem concedidas, volte à seção Autenticação e, na seção Access Key, selecione Criar AccessKey. Escolha criar uma Access Key para um serviço de Terceiros. Você então verá um ACCESS_KEY_ID e ACCESS_KEY_SECRET, que você poderá usar em suas requisições.

Limites de taxa do Alibaba OSS

Ao fazer uploads concorrentes para o Alibaba OSS, é possível atingir os limites de taxa da conta/bucket, e os uploads começarão a expirar com o seguinte erro:

Nesse caso, entre em contato com o suporte do Alibaba OSS para aumentar seus limites de taxa do OSS.

BytePlus TOS

Você pode enviar resultados raspados diretamente para um bucket do BytePlus Torch Object Storage (TOS). Observe que você deve ter seu bucket configurado corretamente e ter tanto sua access key e secret key disponíveis para acesso ao storage em nuvem.

O payload de exemplo abaixo faz o Web Scraper API raspar https://example.com e colocar o resultado em um bucket BytePlus TOS.

Parâmetros

Parâmetro
Valor
Descrição

storage_type

tos

Especifica o BytePlus TOS como provedor de storage.

storage_url

String (URL)

URL autenticada para seu bucket TOS (veja o formato abaixo).

Formato da Storage URL

O storage_url deve ser construído usando suas credenciais TOS e detalhes do bucket.

Componente
Descrição

access_key

Seu access key ID do BytePlus.

secret_key

Sua secret access key do BytePlus.

endpoint

O endpoint específico da região (por exemplo, tos-cn-hongkong.bytepluses.com).

bucket_name

Nome do bucket de destino.

path

(Opcional) Caminho de pasta específico do Bucket.

circle-exclamation

Nomeação do Arquivo de Saída

A Oxylabs gera automaticamente nomes de arquivos para os objetos enviados com base nos detalhes do job:

  • HTML/Conteúdo: {query_id}_{timestamp}.html

  • Dados Parseados: {query_id}_results.json

Os arquivos estarão acessíveis em seu bucket em: tos://{bucket_name}/{path}/{filename}

Outro storage compatível com S3

Se você quiser que seus resultados sejam entregues em um local compatível com S3, você precisará incluir a ACCESS_KEY:SECRET string de autenticação no storage_url valor no payload:

Atualizado

Isto foi útil?