Almacenamiento en la nube

Recupera tus resultados extraídos directamente en tu almacenamiento S3, GCS, OSS u otro compatible con S3.

Los resultados de trabajos de Scraper API se almacenan en nuestro almacenamiento. Puedes obtener tus resultados desde nuestro almacenamiento al GETtando el /results endpoint.

Como alternativa, podemos subir los resultados a tu almacenamiento en la nube. De esta manera, no tienes que hacer solicitudes extra para obtener los resultados: todo va directamente a tu bucket de almacenamiento.

La integración con almacenamiento en la nube funciona solo con Push-Pull método de integración.

Actualmente, admitimos estos servicios de almacenamiento en la nube:

Si deseas usar un tipo de almacenamiento diferente, ponte en contacto con tu gerente de cuenta para analizar el plazo de entrega de la función.

La ruta de carga se ve así: YOUR_BUCKET_NAME/job_ID.json. Encontrarás el ID del trabajo en la respuesta que recibes de nosotros después de enviar un trabajo.

Entrada

Parámetro
Descripción
Valores válidos

storage_type

Tu tipo de almacenamiento en la nube.

gcs (Google Cloud Storage);

s3 (AWS S3); tos (BytePlus TOS);

s3_compatible (cualquier almacenamiento compatible con S3).

storage_url

El nombre / URL de tu bucket de almacenamiento en la nube.

  • Cualquier s3 , gcs , o tos nombre del bucket;

  • Cualquier s3-compatible URL de almacenamiento.

Google Cloud Storage

La carga útil a continuación hace que Web Scraper API extraiga https://example.com y coloque el resultado en un bucket de Google Cloud Storage.

Para que los resultados de tu trabajo se suban a tu bucket de Google Cloud Storage, configura permisos especiales para nuestro servicio como se muestra a continuación:

1

Crear un rol personalizado

2

Añadir storage.objects.create permiso

3

Asignarlo a Oxylabs

En el Nuevos miembros campo, introduce lo siguiente correo electrónico de la cuenta de servicio de Oxylabs:

Amazon S3

La carga útil a continuación hace que Web Scraper API extraiga https://example.com y coloca el resultado en un bucket de Amazon S3.

Para que los resultados de tu trabajo se suban a tu bucket de Amazon S3, configura los permisos de acceso para nuestro servicio. Para hacerlo, ve a https://s3.console.aws.amazon.com/S3AlmacenamientoNombre del bucket (si no tienes uno, crea uno nuevo)PermisosPolítica del bucket.

Puedes encontrar la política del bucket adjunta abajo o en el área de ejemplo de código.

política del bucket s3

No olvides cambiar el nombre del bucket en YOUR_BUCKET_NAME. Esta política nos permite escribir en tu bucket, darte acceso a los archivos cargados y conocer la ubicación del bucket.

Alibaba Cloud Object Storage Service (OSS)

La carga útil a continuación hace que Web Scraper API extraiga https://example.com y coloca el resultado en un bucket de Alibaba Cloud OSS.

Construcción de la Storage URL

Formato de Storage URL:

Aquí es donde encontrarás BUCKET_NAME y oss-REGION de tu bucket:

Creación del Access Key y Secret

Para usar la interfaz compatible con S3 con Alibaba OSS, debes crear ACCESS_KEY_ID y ACCESS_KEY_SECRET como se muestra abajo. Para más información, consulta Cómo usar los SDK de Amazon S3 para acceder a OSS.

1

Ve al Menú de cuenta de AccessKey

2

Inicia sesión en la RAM console

Accede a la RAM console usando una cuenta de Alibaba Cloud o un usuario RAM que tenga permisos administrativos.

3

Ve a Identidades Usuarios en el panel de navegación de la izquierda

4

Selecciona Crear usuario y usa el RAM User AccessKey:

5

Conceder permisos al usuario RAM

El usuario RAM recién creado no tiene permisos. Debes conceder AliyunOSSFullAccess permisos al usuario RAM. Luego, el usuario RAM podrá acceder a los recursos necesarios de Alibaba Cloud. Para más información, consulta Conceder permisos a usuarios RAM.

6

Obtén tu AccessKey ID y AccessKey Secret

Cuando se hayan concedido los permisos, vuelve a la Autenticación sección y, en la Access Key sección, selecciona Crear AccessKey. Elige crear un Access Key para un servicio de terceros. Entonces verás un ACCESS_KEY_ID y ACCESS_KEY_SECRETque luego puedes usar en tus solicitudes.

Límites de tasa de Alibaba OSS

Al realizar cargas concurrentes a Alibaba OSS, es posible alcanzar los límites de tasa de su cuenta/bucket, y las cargas comenzarán a agotarse por tiempo con el siguiente error:

En este caso, ponte en contacto con el soporte de Alibaba OSS para aumentar tus límites de tasa de OSS.

BytePlus TOS

Puedes subir directamente los resultados extraídos a un bucket de BytePlus Torch Object Storage (TOS).

Para una conexión correcta, necesitarás:

  • Un bucket TOS configurado correctamente.

  • Tu access key y secret key.

  • Un endpoint compatible con S3.

Puedes encontrar una lista de todos los endpoints S3 disponibles en la documentación.

Ejemplo

La siguiente carga útil hará scrape de https://example.com y subirá los resultados a tu bucket TOS.

Parámetros

Parámetro
Valores disponibles
Descripción

storage_type

tos

Especifica BytePlus TOS como proveedor de almacenamiento.

storage_url

Cadena URL

URL autenticada a tu bucket TOS (consulta el formato abajo).

Formato de Storage URL

El storage_url debe construirse usando tus credenciales TOS y los detalles del bucket.

Componente
Descripción

access_key

Tu ID de access key de BytePlus.

secret_key

Tu secret access key de BytePlus.

endpoint

El endpoint específico de la región (por ejemplo, tos-cn-hongkong.bytepluses.com).

bucket_name

Nombre del bucket de destino.

path

(Opcional) Ruta de carpeta específica del bucket.

Nomenclatura del archivo de salida

Oxylabs genera automáticamente nombres de archivo para los objetos subidos según los detalles del trabajo:

  • HTML/Contenido: {query_id}_{timestamp}.html

  • Datos analizados: {query_id}_results.json

Los archivos estarán accesibles en tu bucket en: tos://{bucket_name}/{path}/{filename}

Otro almacenamiento compatible con S3

Si deseas que tus resultados se entreguen en una ubicación de almacenamiento compatible con S3, tendrás que incluir la ACCESS_KEY:SECRET cadena de autenticación en el storage_url valor en la carga útil:

¿Te fue útil?