Documentation has been updated: see help center and changelog in one place.

Formación de URLs

Aprende a construir URLs para objetivos de Web Scraper API como Baidu, Yandex y Wayfair. Domina el encodeo de URLs, paginación y más.

Siguiendo estas directrices, puede construir URL para Baidu, Yandex o Wayfair para sus tareas de scraping web.

Baidu

Asignación de parámetros del trabajo a la URL:

https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: Los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por %20, que representa un carácter de espacio en una URL.

  2. Cálculo de la página de inicio: El start_page parámetro ahora corresponde al número de resultados de búsqueda a omitir. Use la ecuación limit*start_page-limit para calcular el valor.

  3. Asignación de subdominio: El valor del subdominio depende del tipo de User-Agent proporcionado en el trabajo. Si el tipo de User-Agent contiene mobile, el valor del subdominio debe ser m. De lo contrario, debe ser www.

  4. Parámetro de consulta: Dependiendo del valor del subdominio (m o www), el parámetro de consulta para el término de búsqueda debe ajustarse en consecuencia (word para m y wd para www).

URLs de ejemplo construidas

Para móvil:

https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20

Para escritorio:

https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13

Ejemplos de trabajos equivalentes

Fuera de servicio baidu_search origen:

Actualizado fuente universal origen:

Yandex

Asignación de parámetros del trabajo a la URL:

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: Los términos de búsqueda deben codificarse en la URL. Por ejemplo, los espacios deben reemplazarse por %20, que representa un carácter de espacio en una URL.

  2. Ajuste de la página de inicio: El valor de la start_page tiene que reducirse en 1. Por ejemplo, si la página de inicio deseada es 3, entonces el valor en la URL, que representa el número de página, tiene que ser 2.

  3. Localización: Si el dominio es cualquiera de ru o tr, se agrega un parámetro de consulta adicional lr con el valor geo_location . Para otros dominios, el valor de geo_location está bajo el parámetro de consulta rstr, donde se añade un símbolo - antes del valor.

  4. No compatible: el parámetro pages ya no es compatible. Los trabajos deben enviarse por separado cambiando el valor de la página actual en la URL.

Ejemplos de URL construidas

Ejemplo de trabajo equivalente

Fuera de servicio yandex_search origen:

Actualizado fuente universal origen:

Wayfair

Asignación de parámetros del trabajo a la URL:

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por %20, que representa un carácter de espacio en una URL.

  2. Parámetros: Si limit es igual a 48 y start_page es igual a 1, entonces los siguientes parámetros adicionales deben añadirse a la URL:

    1. command=dosearch

    2. new_keyword_search=true

Ejemplos de URL construidas

Ejemplo de trabajo equivalente

Fuera de servicio wayfair_search origen:

Actualizado fuente universal origen:

Última actualización

¿Te fue útil?