Formando URLs
Aprenda como construir URLs para alvos do Web Scraper API como Baidu, Yandex e Wayfair. Domine codificação de URL, paginação e mais.
Seguindo estas diretrizes, você pode construir URLs para Baidu, Yandex ou Wayfair para suas tarefas de web scraping.
Baidu
Atribuição de parâmetros do job para a URL:
https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>Ao formar URLs, por favor siga estas instruções:
Codificação dos termos de busca: Os termos de busca devem ser codificados em URL. Por exemplo, espaços devem ser substituídos por
%20, que representa um caractere de espaço em uma URL.Cálculo da página inicial: O
start_pageparâmetro agora corresponde ao número de resultados de busca a pular. Use a equaçãolimit*start_page-limitpara calcular o valor.Atribuição de subdomínio: O valor do subdomínio depende do tipo de user agent fornecido no job. Se o tipo de user agent contiver mobile, o valor do subdomínio deve ser
m. Caso contrário, deve serwww.Parâmetro de consulta: Dependendo do valor do subdomínio (
mouwww), o parâmetro de consulta para o termo de pesquisa deve ser ajustado adequadamente (wordparamewdparawww).
URLs de Exemplo Construídas
Para mobile:
https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20Para desktop:
https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13Exemplos de Jobs Equivalentes
Desativado baidu_search fonte:
Atualizado universal fonte:
Yandex
Atribuição de parâmetros do job para a URL:
Ao formar URLs, por favor siga estas instruções:
Codificação dos termos de busca: Os termos de busca devem ser codificados em URL. Por exemplo, espaços devem ser substituídos por
%20, que representa um caractere de espaço em uma URL.Ajuste da página inicial: O valor de
start_pagetem que ser reduzido em 1. Por exemplo, se a página inicial desejada for 3, então o valor na URL, que representa o número da página, tem que ser2.Localização: Se o domínio for
ruoutr, um parâmetro de consulta adicionallré adicionado com o valorgeo_location. Para outros domínios, o valor degeo_locationestá sob o parâmetro de consultarstr, onde um símbolo-é adicionado antes do valor.Não suportado: o parâmetro pages não é mais suportado. Jobs devem ser submetidos separadamente alterando o valor da página atual na URL.
Exemplos de URL construídas
Exemplo de job equivalente
Desativado yandex_search fonte:
Atualizado universal fonte:
Wayfair
Atribuição de parâmetros do job para a URL:
Ao formar URLs, por favor siga estas instruções:
Codificação dos termos de busca: os termos de busca devem ser codificados em URL. Por exemplo, espaços devem ser substituídos por
%20, que representa um caractere de espaço em uma URL.Parâmetros: Se
limitfor igual a48estart_pagefor igual a1, então os seguintes parâmetros adicionais devem ser anexados à URL:command=dosearchnew_keyword_search=true
Exemplos de URL construídas
Exemplo de job equivalente
Desativado wayfair_search fonte:
Atualizado universal fonte:
Atualizado
Isto foi útil?

