Armazenamento em nuvem

Recupere seus resultados raspados diretamente no seu armazenamento S3, GCS, OSS ou outro compatível com S3.

Os resultados dos jobs da Scraper API são armazenados em nosso storage. Você pode obter seus resultados do nosso storage por GETando o /results endpoint.

Como alternativa, podemos enviar os resultados para o seu armazenamento em nuvem. Dessa forma, você não precisa fazer requisições extras para buscar os resultados – tudo vai diretamente para o seu bucket de armazenamento.

A integração com armazenamento em nuvem funciona apenas com Push-Pull método de integração.

Atualmente, oferecemos suporte a estes serviços de armazenamento em nuvem:

Se você quiser usar outro tipo de armazenamento, entre em contato com seu gerente de conta para discutir o prazo de entrega do recurso.

O caminho de upload é assim: YOUR_BUCKET_NAME/job_ID.json. Você encontrará o ID do job na resposta que recebe de nós após enviar um job.

Entrada

Parâmetro
Descrição
Valores válidos

storage_type

O tipo de armazenamento em nuvem.

gcs (Google Cloud Storage);

s3 (AWS S3); tos (BytePlus TOS);

s3_compatible (qualquer armazenamento compatível com S3).

storage_url

O nome / URL do seu bucket de armazenamento em nuvem.

  • Qualquer s3 , gcs , ou tos nome do bucket;

  • Qualquer s3-compatible URL de armazenamento.

Google Cloud Storage

O payload abaixo faz a Web Scraper API raspar https://example.com e colocar o resultado em um bucket do Google Cloud Storage.

Para fazer com que os resultados do seu job sejam enviados para o seu bucket do Google Cloud Storage, configure permissões especiais para o nosso serviço, como mostrado abaixo:

1

Crie uma função personalizada

2

Adicione storage.objects.create permissão

3

Atribua-a à Oxylabs

Em Novos membros o campo, insira o seguinte e-mail da conta de serviço da Oxylabs:

Amazon S3

O payload abaixo faz a Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Amazon S3.

Para fazer com que os resultados do seu job sejam enviados para o seu bucket do Amazon S3, configure permissões de acesso para o nosso serviço. Para isso, vá para https://s3.console.aws.amazon.com/S3ArmazenamentoNome do bucket (se você não tiver um, crie um novo)PermissõesPolítica do bucket.

Você pode encontrar a política do bucket anexada abaixo ou na área de exemplo de código.

política de bucket s3

Não se esqueça de alterar o nome do bucket em YOUR_BUCKET_NAME. Esta política nos permite gravar no seu bucket, dar a você acesso aos arquivos enviados e saber a localização do bucket.

Alibaba Cloud Object Storage Service (OSS)

O payload abaixo faz a Web Scraper API raspar https://example.com e coloque o resultado em um bucket do Alibaba Cloud OSS.

Formando a Storage URL

Formato da Storage URL:

Aqui é onde você encontrará o BUCKET_NAME e oss-REGION do seu bucket:

Criando o Access Key e o Secret

Para usar a interface compatível com S3 com o Alibaba OSS, você deve criar o ACCESS_KEY_ID e ACCESS_KEY_SECRET como mostrado abaixo. Para mais informações, veja Como usar SDKs do Amazon S3 para acessar o OSS.

1

Vá para o Menu da Conta AccessKey

2

Faça login no RAM console

Acesse o RAM console usando uma conta Alibaba Cloud ou um usuário RAM que tenha direitos administrativos.

3

Vá para Identidades Usuários no painel de navegação à esquerda

4

Selecione Criar usuário e use o RAM User AccessKey:

5

Conceda permissões ao usuário RAM

O usuário RAM recém-criado não tem permissões. Você deve conceder permissões AliyunOSSFullAccess ao usuário RAM. Então, o usuário RAM poderá acessar os recursos necessários da Alibaba Cloud. Para mais informações, veja Conceder permissões aos usuários RAM.

6

Obtenha seu AccessKey ID e AccessKey Secret

Quando as permissões forem concedidas, volte para a seção Autenticação e, na seção Access Key selecione Criar AccessKey. Escolha criar um Access Key para um serviço de terceiros. Você verá então um ACCESS_KEY_ID e ACCESS_KEY_SECRET, que você poderá usar em suas requisições.

Limites de taxa do Alibaba OSS

Ao fazer uploads simultâneos para o Alibaba OSS, é possível atingir os limites de taxa da conta/bucket, e os uploads começarão a expirar com o seguinte erro:

Nesse caso, entre em contato com o suporte do Alibaba OSS para aumentar seus limites de taxa do OSS.

BytePlus TOS

Você pode enviar resultados raspados diretamente para um bucket do BytePlus Torch Object Storage (TOS).

Para uma conexão bem-sucedida, você precisará de:

  • Um bucket TOS configurado corretamente.

  • Sua access key e secret key.

  • Um endpoint compatível com S3.

Você pode encontrar uma lista de todos os endpoints S3 disponíveis na documentação oficial da BytePlus documentação.

Exemplo

O payload a seguir irá raspar https://example.com e enviar os resultados para o seu bucket TOS.

Parâmetros

Parâmetro
Valores disponíveis
Descrição

storage_type

tos

Especifica o BytePlus TOS como provedor de armazenamento.

storage_url

string de URL

URL autenticada para o seu bucket TOS (veja o formato abaixo).

Formato da Storage URL

A storage_url deve ser construída usando suas credenciais TOS e os detalhes do bucket.

Componente
Descrição

access_key

Seu ID da access key da BytePlus.

secret_key

Sua secret access key da BytePlus.

endpoint

O endpoint específico da região (por exemplo, tos-cn-hongkong.bytepluses.com).

bucket_name

Nome do bucket de destino.

path

(Opcional) Caminho da pasta específica do bucket.

Nomeação do Arquivo de Saída

A Oxylabs gera automaticamente nomes de arquivo para os objetos enviados com base nos detalhes do job:

  • HTML/Content: {query_id}_{timestamp}.html

  • Dados analisados: {query_id}_results.json

Os arquivos estarão acessíveis no seu bucket em: tos://{bucket_name}/{path}/{filename}

Outro armazenamento compatível com S3

Se você quiser que seus resultados sejam entregues em um local de armazenamento compatível com S3, você terá que incluir a ACCESS_KEY:SECRET string de autenticação no storage_url valor no payload:

Isto foi útil?