Target genérico

Veja como suas requisições ficariam com a fonte universal.

Raspagem de outros sites (Home Depot, Idealo, Zillow, Yandex, Baidu, etc.) com nosso universal fonte. Aceita URLs juntamente com parâmetros adicionais.

Amostras de requisição

Neste exemplo, a API irá recuperar uma página de produto de e-commerce.

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://sandbox.oxylabs.io/products/1"
    }'

import requests
from pprint import pprint


# Estruturar payload.
payload = {
    'source': 'universal',
    'url': 'https://sandbox.oxylabs.io/products/1',
}

# Obter resposta.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('USERNAME', 'PASSWORD'),
    json=payload,
)

# Em vez de resposta com status do job e URL dos resultados, isso retornará o
# resposta JSON com o resultado.
pprint(response.json())

const https = require("https");

const username = "USERNAME";
const password = "PASSWORD";
const body = {
    source: "universal",
    url: "https://sandbox.oxylabs.io/products/1",
};

const options = {
    hostname: "realtime.oxylabs.io",
    path: "/v1/queries",
    method: "POST",
    headers: {
        "Content-Type": "application/json",
        Authorization:
            "Basic " + Buffer.from(`${username}:${password}`).toString("base64"),
    },
};

const request = https.request(options, (response) => {
    let data = "";

    response.on("data", (chunk) => {
        data += chunk;
    });

    response.on("end", () => {
        const responseData = JSON.parse(data);
        console.log(JSON.stringify(responseData, null, 2));
    });
});

request.on("error", (error) => {
    console.error("Error:", error);
});

request.write(JSON.stringify(body));
request.end();

# Toda a string que você enviar precisa estar codificada em URL.

https://realtime.oxylabs.io/v1/queries?source=universal&url=https%3A%2F%2Fsandbox.oxylabs.io%2Fproducts%2F1&access_token=12345abcde

<?php

$params = array(
    'source' => 'universal',
    'url' => 'https://sandbox.oxylabs.io/products/1',
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, "https://realtime.oxylabs.io/v1/queries");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($params));
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_USERPWD, "USERNAME" . ":" . "PASSWORD");

$headers = array();
$headers[] = "Content-Type: application/json";
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

$result = curl_exec($ch);
echo $result;

if (curl_errno($ch)) {
    echo 'Error:' . curl_error($ch);
}
curl_close($ch);

package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"io/ioutil"
	"net/http"
)

func main() {
	const Username = "USERNAME"
	const Password = "PASSWORD"

	payload := map[string]interface{}{
		"source": "universal",
		"url":    "https://sandbox.oxylabs.io/products/1",
	}

	jsonValue, _ := json.Marshal(payload)

	client := &http.Client{}
	request, _ := http.NewRequest("POST",
		"https://realtime.oxylabs.io/v1/queries",
		bytes.NewBuffer(jsonValue),
	)

	request.SetBasicAuth(Username, Password)
	response, _ := client.Do(request)

	responseText, _ := ioutil.ReadAll(response.Body)
	fmt.Println(string(responseText))
}

using System;
using System.Collections.Generic;
using System.Net.Http;
using System.Net.Http.Json;
using System.Threading.Tasks;

namespace OxyApi
{
    class Program
    {
        static async Task Main()
        {
            const string Username = "USERNAME";
            const string Password = "PASSWORD";

            var parameters = new {
                source = "universal",
                url = "https://sandbox.oxylabs.io/products/1"
            };

            var client = new HttpClient();

            Uri baseUri = new Uri("https://realtime.oxylabs.io");
            client.BaseAddress = baseUri;

            var requestMessage = new HttpRequestMessage(HttpMethod.Post, "/v1/queries");
            requestMessage.Content = JsonContent.Create(parameters);

            var authenticationString = $"{Username}:{Password}";
            var base64EncodedAuthenticationString = Convert.ToBase64String(System.Text.ASCIIEncoding.UTF8.GetBytes(authenticationString));
            requestMessage.Headers.Add("Authorization", "Basic " + base64EncodedAuthenticationString);

            var response = await client.SendAsync(requestMessage);
            var contents = await response.Content.ReadAsStringAsync();

            Console.WriteLine(contents);
        }
    }
}

package org.example;

import okhttp3.*;
import org.json.JSONObject;
import java.util.concurrent.TimeUnit;

public class Main implements Runnable {
    private static final String AUTHORIZATION_HEADER = "Authorization";
    public static final String USERNAME = "USERNAME";
    public static final String PASSWORD = "PASSWORD";

    public void run() {
        JSONObject jsonObject = new JSONObject();
        jsonObject.put("source", "universal");
        jsonObject.put("url", "https://sandbox.oxylabs.io/products/1");

        Authenticator authenticator = (route, response) -> {
            String credential = Credentials.basic(USERNAME, PASSWORD);
            return response
                    .request()
                    .newBuilder()
                    .header(AUTHORIZATION_HEADER, credential)
                    .build();
        };

        var client = new OkHttpClient.Builder()
                .authenticator(authenticator)
                .readTimeout(180, TimeUnit.SECONDS)
                .build();

        var mediaType = MediaType.parse("application/json; charset=utf-8");
        var body = RequestBody.create(jsonObject.toString(), mediaType);
        var request = new Request.Builder()
                .url("https://realtime.oxylabs.io/v1/queries")
                .post(body)
                .build();

        try (var response = client.newCall(request).execute()) {
            if (response.body() != null) {
                try (var responseBody = response.body()) {
                    System.out.println(responseBody.string());
                }
            }
        } catch (Exception exception) {
            System.out.println("Error: " + exception.getMessage());
        }

        System.exit(0);
    }

    public static void main(String[] args) {
        new Thread(new Main()).start();
    }
}

Exemplo de saída

{
    "results": [
        {
            "content": "<!DOCTYPE html><html lang=\"en\">
            CONTEÚDO
            </html>",
            "created_at": "2024-07-01 11:35:14",
            "updated_at": "2024-07-01 11:35:15",
            "page": 1,
            "url": "https://sandbox.oxylabs.io/products/1",
            "job_id": "7213505428280329217",
            "status_code": 200
        }
    ]
}

Usamos o método de integração síncrono Realtime em nossos exemplos. Se você quiser usar Proxy Endpoint ou integração assíncrona Push-Pull consulte os métodos de integração da seção.

Valores dos parâmetros da requisição

Genérico

Parâmetro

Descrição

Valor Padrão

source

Define o scraper.

universal

url

URL direta (link) para qualquer página.

callback_url

URL para o seu endpoint de callback. Mais info.

- parâmetro obrigatório

Adicional

Estes são os parâmetros do nosso recursos.

Parâmetro

Descrição

Valor Padrão

geo_location

Define a localização geográfica do proxy para recuperar dados. Encontre locais suportados aqui.

render

Ativa a renderização JavaScript quando definido como html. Mais info. NOTA: Se você estiver observando baixas taxas de sucesso ou obtendo conteúdo vazio, tente adicionar este parâmetro.

browser_instructions

Defina suas próprias instruções de navegador que são executadas ao renderizar JavaScript. Mais info.

parse

Retorna dados parseados quando definido como true, desde que exista um parser dedicado para o tipo de página da URL enviada.

false

parsing_instructions

Defina sua própria lógica de parsing e transformação de dados que será executada sobre o resultado da raspagem HTML. Leia mais: Exemplos de instruções de parsing.

context: headers

Passe seus próprios headers. Saiba mais aqui.

context: cookies

Passe seus próprios cookies. Saiba mais aqui.

context: session_id

Se você quiser usar o mesmo proxy em várias solicitações, pode fazê-lo usando este parâmetro. Basta definir sua sessão como qualquer string que desejar, e nós atribuíremos um proxy a esse ID e o manteremos por até 10 minutos. Depois disso, se você fizer outra solicitação com o mesmo ID de sessão, um novo proxy será atribuído a esse ID de sessão em particular.

context: http_method

Defina como post se você quiser fazer uma POST solicitação para sua URL de destino via E-commerce Scraper API. Saiba mais aqui.

get

user_agent_type

Tipo de dispositivo e navegador. A lista completa pode ser encontrada aqui.

desktop

context: conteúdo

Codificado em Base64 POST corpo da solicitação. Só é útil se http_method está definido como post.

content_encoding

Adicione este parâmetro se estiver baixando imagens. Saiba mais aqui.

base64

context: follow_redirects

Defina como true para permitir que o scraper siga redirecionamentos. Por padrão, redirecionamentos são seguidos até um limite de 10 links, tratando toda a cadeia como um único trabalho de raspagem.

true

context: successful_status_codes

Defina um código de resposta HTTP personalizado (ou alguns deles), sobre o qual devemos considerar a raspagem bem-sucedida e retornar o conteúdo para você. Pode ser útil se você quiser que retornemos a página de erro 503 ou em outros casos não padrão.

Todos os parâmetros

Neste exemplo, todos os parâmetros disponíveis estão incluídos (embora nem sempre necessários ou compatíveis na mesma solicitação), para lhe dar uma ideia de como formatar suas solicitações.

{
    "source": "universal", 
    "url": "https://example.com", 
    "user_agent_type": "desktop",
    "geo_location": "Estados Unidos",
    "parse": true,
    "context": [
        {
            "key": "headers", 
            "value": {
                "Content-Type": "application/octet-stream", 
                "Custom-Header-Name": "custom header content"
            }
        }, 
        {
            "key": "cookies", 
            "value": [
                {
                    "key": "NID", 
                    "value": "1234567890"
                },
                {
                    "key": "1P JAR",
                    "value": "0987654321"
                }]
        },
        {
            "key": "follow_redirects",
            "value": true
        },
        {
            "key": "http_method", "value": "get"
        },
        {
            "key": "content",
            "value": "YmFzZTY0RW5jb2RlZFBPU1RCb2R5"
        },
        {
            "key": "successful_status_codes",
            "value": [808, 909]
        }]
}

AnteriorAutocomplete do YouTube PróximoWalmart

Atualizado há 7 meses

Isto foi útil?

Bom dia

hashtagAmostras de requisição

hashtagValores dos parâmetros da requisição

hashtagGenérico

hashtagAdicional

Amostras de requisição

Valores dos parâmetros da requisição

Genérico

Adicional