Documentation has been updated: see help center and changelog in one place.

Almacenamiento en la nube

Recupera tus resultados raspados directamente en tu S3, GCS, OSS u otro almacenamiento compatible con S3.

Los resultados de trabajos de Scraper API se almacenan en nuestro almacenamiento. Puedes obtener tus resultados de nuestro almacenamiento mediante GETsolicitando el /results endpoint.

Como alternativa, podemos cargar los resultados en tu almacenamiento en la nube. De esta forma, no tienes que hacer solicitudes adicionales para obtener resultados: todo va directamente a tu bucket de almacenamiento.

La integración con almacenamiento en la nube funciona solo con Push-Pull método de integración.

Actualmente, soportamos estos servicios de almacenamiento en la nube:

Si deseas usar un tipo de almacenamiento diferente, por favor contacta a tu gestor de cuenta para discutir el plazo de entrega de la función.

La ruta de carga se ve así: TU_NOMBRE_DE_BUCKET/job_ID.json. Encontrarás el ID del trabajo en la respuesta que recibes de nosotros después de enviar un trabajo.

Entrada

Parámetro
Descripción
Valores válidos

storage_type

Tu tipo de almacenamiento en la nube.

gcs (Google Cloud Storage);

s3 (AWS S3);

s3_compatible (cualquier almacenamiento compatible con S3).

storage_url

El nombre del bucket / URL de tu almacenamiento en la nube.

  • Cualquiera s3 o gcs nombre de bucket;

  • Cualquiera s3-compatible URL de almacenamiento.

Google Cloud Storage

La carga útil a continuación hace que Web Scraper API rastree https://example.com y ponga el resultado en un bucket de Google Cloud Storage.

{
    "source": "universal",
    "query": "https://example.com",
    "storage_type": "gcs",
    "storage_url": "bucket_name/path"
}

Para que los resultados de tu trabajo se carguen en tu bucket de Google Cloud Storage, configura permisos especiales para nuestro servicio como se muestra a continuación:

1

Crear un rol personalizado

2

Agregar storage.objects.create permiso

3

Asignarlo a Oxylabs

En el campo Nuevos miembros introduce lo siguiente correo de la cuenta de servicio de Oxylabs:

Amazon S3

La carga útil a continuación hace que Web Scraper API rastree https://example.com y poner el resultado en un bucket de Amazon S3.

Para que los resultados de tu trabajo se carguen en tu bucket de Amazon S3, configura permisos de acceso para nuestro servicio. Para hacerlo, ve a https://s3.console.aws.amazon.com/S3AlmacenamientoNombre del bucket (si no tienes uno, crea uno nuevo)PermisosPolítica del bucket.

Puedes encontrar la política del bucket adjunta a continuación o en el área de ejemplos de código.

política del bucket s3

No olvides cambiar el nombre del bucket bajo TU_NOMBRE_DE_BUCKET. Esta política nos permite escribir en tu bucket, darte acceso a los archivos cargados y conocer la ubicación del bucket.

Alibaba Cloud Object Storage Service (OSS)

La carga útil a continuación hace que Web Scraper API rastree https://example.com y poner el resultado en un bucket de Alibaba Cloud OSS.

Formación de la URL de almacenamiento

Formato de la URL de almacenamiento:

Aquí es donde encontrarás el NOMBRE_DEL_BUCKET y oss-REGION de tu bucket:

Crear el Access Key y Secret

Para usar la interfaz compatible con S3 con Alibaba OSS, debes crear el ACCESS_KEY_ID y ACCESS_KEY_SECRET como se muestra a continuación. Para más información, consulta Cómo usar los SDKs de Amazon S3 para acceder a OSS.

1

Ve al Menú de cuenta AccessKey

2

Inicia sesión en la consola RAM

Accede al consola RAM utilizando una cuenta de Alibaba Cloud o un usuario RAM que tenga derechos administrativos.

3

Ve a Identidades Usuarios en el panel de navegación del lado izquierdo

4

Selecciona Crear usuario y usa la RAM User AccessKey:

5

Conceder permisos al usuario RAM

El usuario RAM recién creado no tiene permisos. Debes otorgar AliyunOSSFullAccess permisos al usuario RAM. Entonces, el usuario RAM podrá acceder a los recursos requeridos de Alibaba Cloud. Para más información, consulta Conceder permisos a usuarios RAM.

6

Obtén tu AccessKey ID y AccessKey Secret

Cuando se concedan los permisos, vuelve a la sección de Autenticación y, en la sección Clave de acceso selecciona Crear AccessKey. Elige crear una Access Key para un servicio de Terceros. Entonces verás un ACCESS_KEY_ID y ACCESS_KEY_SECRET, que luego puedes usar en tus solicitudes.

Límites de tasa de Alibaba OSS

Al realizar cargas concurrentes a Alibaba OSS, es posible alcanzar sus límites de tasa por cuenta/bucket, y las cargas empezarán a agotar el tiempo con el siguiente error:

En este caso, por favor contacta con el soporte de Alibaba OSS para aumentar tus límites de tasa de OSS.

Otro almacenamiento compatible con S3

Si deseas que tus resultados se entreguen a una ubicación de almacenamiento compatible con S3, debes incluir la ACCESS_KEY:SECRET cadena de autenticación en el storage_url valor en la carga útil:

Última actualización

¿Te fue útil?