Almacenamiento en la nube
Recupera tus resultados raspados directamente en tu S3, GCS, OSS u otro almacenamiento compatible con S3.
Los resultados de trabajos de Scraper API se almacenan en nuestro almacenamiento. Puede obtener sus resultados de nuestro almacenamiento mediante GETiendo el /results endpoint.
Como alternativa, podemos subir los resultados a su almacenamiento en la nube. De este modo, no tendrá que hacer solicitudes adicionales para obtener resultados: todo va directamente a su bucket de almacenamiento.
La integración con almacenamiento en la nube funciona solo con Push-Pull método de integración.
Actualmente, soportamos estos servicios de almacenamiento en la nube:
Si desea usar un tipo diferente de almacenamiento, póngase en contacto con su gerente de cuenta para discutir el cronograma de entrega de la función.
La ruta de carga se ve así: YOUR_BUCKET_NAME/job_ID.json. Encontrará el ID del trabajo en la respuesta que recibe de nosotros después de enviar un trabajo.
Entrada
storage_type
Su tipo de almacenamiento en la nube.
gcs (Google Cloud Storage);
s3 (AWS S3); tos (BytePlus TOS);
s3_compatible (cualquier almacenamiento compatible con S3).
storage_url
El nombre / URL del bucket de su almacenamiento en la nube.
Cualquiera
s3,gcs, otosnombre del bucket;Cualquiera
s3-compatibleURL de almacenamiento.
Google Cloud Storage
La carga útil a continuación hace que Web Scraper API raspee https://example.com y coloque el resultado en un bucket de Google Cloud Storage.
Para que los resultados de su trabajo se carguen en su bucket de Google Cloud Storage, configure permisos especiales para nuestro servicio como se muestra a continuación:
Crear un rol personalizado

Agregar storage.objects.create permiso

Asígnelo a Oxylabs
En el Nuevos miembros campo, ingrese lo siguiente Correo electrónico de la cuenta de servicio de Oxylabs:

Amazon S3
La carga útil a continuación hace que Web Scraper API raspee https://example.com y coloque el resultado en un bucket de Amazon S3.
Para que los resultados de su trabajo se carguen en su bucket de Amazon S3, configure permisos de acceso para nuestro servicio. Para ello, vaya a https://s3.console.aws.amazon.com/ → S3 → Almacenamiento → Nombre del bucket (si no tiene uno, cree uno nuevo) → Permisos → Política de bucket.

Puede encontrar la política del bucket adjunta abajo o en el área de ejemplos de código.
No olvide cambiar el nombre del bucket bajo YOUR_BUCKET_NAME. Esta política nos permite escribir en su bucket, darle acceso a usted a los archivos subidos y conocer la ubicación del bucket.
Alibaba Cloud Object Storage Service (OSS)
La carga útil a continuación hace que Web Scraper API raspee https://example.com y coloque el resultado en un bucket de Alibaba Cloud OSS.
Formación de la URL de almacenamiento
Formato de URL de almacenamiento:
Actualmente, no podemos subir al bucket raíz. Proporcione un nombre de carpeta específico para sus cargas.
Aquí es donde encontrará el BUCKET_NAME y oss-REGION de su bucket:

Creación del Access Key y Secret
Para usar la interfaz compatible con S3 con Alibaba OSS, debe crear el ACCESS_KEY_ID y ACCESS_KEY_SECRET como se muestra a continuación. Para más información, vea
Cómo usar los SDK de Amazon S3 para acceder a OSS.
Vaya al Menú de cuenta AccessKey

Inicie sesión en la RAM console
Acceda al RAM console usando una cuenta de Alibaba Cloud o un RAM user que tenga derechos administrativos.
Vaya a Identidades → Usuarios en el panel de navegación lateral izquierdo
Seleccione Crear usuario y use el RAM User AccessKey:


Conceder permisos al usuario RAM
El usuario RAM recién creado no tiene permisos. Debe otorgar AliyunOSSFullAccess permisos al usuario RAM. Luego, el usuario RAM podrá acceder a los recursos requeridos de Alibaba Cloud. Para más información, vea Conceder permisos a usuarios RAM.

Obtenga su AccessKey ID y AccessKey Secret
Cuando se otorguen los permisos, vuelva a la Autenticación sección y, en la Clave de acceso sección, seleccione Crear AccessKey. Elija crear una Access Key para un servicio de terceros. Entonces verá un ACCESS_KEY_ID y ACCESS_KEY_SECRET, que podrá usar en sus solicitudes.
Límites de tasa de Alibaba OSS
Al hacer cargas concurrentes a Alibaba OSS, es posible alcanzar los límites de tasa de cuenta/bucket, y las cargas comenzarán a agotar tiempo con el siguiente error:

En ese caso, póngase en contacto con el soporte de Alibaba OSS para aumentar sus límites de tasa de OSS.
BytePlus TOS
Puede subir los resultados raspados directamente a un bucket de BytePlus Torch Object Storage (TOS). Tenga en cuenta que debe tener su bucked set up correctly y tener tanto su access key y secret key disponibles para el acceso al almacenamiento en la nube.
La carga útil de ejemplo a continuación hace que Web Scraper API raspee https://example.com y coloque el resultado en un bucket de BytePlus TOS.
Parámetros
storage_type
tos
Especifica BytePlus TOS como el proveedor de almacenamiento.
storage_url
String (URL)
URL autenticada a su bucket TOS (ver formato más abajo).
Formato de URL de almacenamiento
El storage_url debe construirse usando sus credenciales TOS y los detalles del bucket.
access_key
Su ID de access key de BytePlus.
secret_key
Su secret access key de BytePlus.
endpoint
El endpoint específico de la región (por ejemplo, tos-cn-hongkong.bytepluses.com).
bucket_name
Nombre del bucket de destino.
path
(Opcional) Ruta de carpeta específica del bucket.
Si su Access Key o Secret Key contiene caracteres especiales (tales como /, +, o =), éstos deben codificarse en URL antes de construir la cadena.
Nomenclatura de archivos de salida
Oxylabs genera automáticamente nombres de archivo para los objetos subidos basados en los detalles del trabajo:
HTML/Contenido:
{query_id}_{timestamp}.htmlDatos analizados:
{query_id}_results.json
Los archivos serán accesibles en su bucket en: tos://{bucket_name}/{path}/{filename}
Otro almacenamiento compatible con S3
Si desea que sus resultados se entreguen a una ubicación de almacenamiento compatible con S3, deberá incluir la ACCESS_KEY:SECRET cadena de autenticación en el storage_url valor en la carga útil:
Última actualización
¿Te fue útil?

