Formación de URLs
Aprende a construir URLs para objetivos de Web Scraper API como Baidu, Yandex y Wayfair. Domina el encodeo de URLs, paginación y más.
Siguiendo estas directrices, puede construir URL para Baidu, Yandex o Wayfair para sus tareas de scraping web.
Baidu
Asignación de parámetros del trabajo a la URL:
https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>Al formar las URL, siga estas instrucciones:
Codificación de términos de búsqueda: Los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por
%20, que representa un carácter de espacio en una URL.Cálculo de la página de inicio: El
start_pageparámetro ahora corresponde al número de resultados de búsqueda a omitir. Use la ecuaciónlimit*start_page-limitpara calcular el valor.Asignación de subdominio: El valor del subdominio depende del tipo de User-Agent proporcionado en el trabajo. Si el tipo de User-Agent contiene mobile, el valor del subdominio debe ser
m. De lo contrario, debe serwww.Parámetro de consulta: Dependiendo del valor del subdominio (
mowww), el parámetro de consulta para el término de búsqueda debe ajustarse en consecuencia (wordparamywdparawww).
URLs de ejemplo construidas
Para móvil:
https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20Para escritorio:
https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13Ejemplos de trabajos equivalentes
Fuera de servicio baidu_search origen:
Actualizado fuente universal origen:
Yandex
Asignación de parámetros del trabajo a la URL:
Al formar las URL, siga estas instrucciones:
Codificación de términos de búsqueda: Los términos de búsqueda deben codificarse en la URL. Por ejemplo, los espacios deben reemplazarse por
%20, que representa un carácter de espacio en una URL.Ajuste de la página de inicio: El valor de la
start_pagetiene que reducirse en 1. Por ejemplo, si la página de inicio deseada es 3, entonces el valor en la URL, que representa el número de página, tiene que ser2.Localización: Si el dominio es cualquiera de
ruotr, se agrega un parámetro de consulta adicionallrcon el valorgeo_location. Para otros dominios, el valor degeo_locationestá bajo el parámetro de consultarstr, donde se añade un símbolo-antes del valor.No compatible: el parámetro pages ya no es compatible. Los trabajos deben enviarse por separado cambiando el valor de la página actual en la URL.
Ejemplos de URL construidas
Ejemplo de trabajo equivalente
Fuera de servicio yandex_search origen:
Actualizado fuente universal origen:
Wayfair
Asignación de parámetros del trabajo a la URL:
Al formar las URL, siga estas instrucciones:
Codificación de términos de búsqueda: los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por
%20, que representa un carácter de espacio en una URL.Parámetros: Si
limites igual a48ystart_pagees igual a1, entonces los siguientes parámetros adicionales deben añadirse a la URL:command=dosearchnew_keyword_search=true
Ejemplos de URL construidas
Ejemplo de trabajo equivalente
Fuera de servicio wayfair_search origen:
Actualizado fuente universal origen:
Última actualización
¿Te fue útil?

