circle-check
Documentation has been updated: see help center and changelog in one place.

Formación de URL

Aprende a construir URLs para objetivos de Web Scraper API como Baidu, Yandex y Wayfair. Domina la codificación de URL, la paginación y más.

Siguiendo estas directrices, puede construir URL para Baidu, Yandex o Wayfair para sus tareas de web scraping.

Baidu

Asignación de parámetros del trabajo a la URL:

https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: Los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por %20, que representa un carácter de espacio en una URL.

  2. Cálculo de la página inicial: El start_page parámetro ahora corresponde al número de resultados de búsqueda a omitir. Use la ecuación limit*start_page-limit para calcular el valor.

  3. Asignación de subdominio: El valor del subdominio depende del tipo de User-Agent proporcionado en el trabajo. Si el tipo de User-Agent contiene mobile, el valor del subdominio debe ser m. De lo contrario, debe ser www.

  4. Parámetro de consulta: Dependiendo del valor del subdominio (m o www), el parámetro de consulta para el término de búsqueda debe ajustarse en consecuencia (word para m y wd para www).

URLs de ejemplo construidas

Para móvil:

https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20

Para escritorio:

https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13

Ejemplos de trabajos equivalentes

Desmantelado baidu_search fuente:

Actualizado universal fuente:

Yandex

Asignación de parámetros del trabajo a la URL:

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: Los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse por %20, que representa un carácter de espacio en una URL.

  2. Ajuste de la página inicial: El valor de la start_page tiene que reducirse en 1. Por ejemplo, si la página inicial deseada es 3, entonces el valor en la URL, que representa el número de página, tiene que ser 2.

  3. Localización: Si el dominio es cualquiera de ru o tr, un parámetro de consulta adicional lr se añade con el geo_location valor. Para otros dominios, el geo_location valor está bajo el parámetro de consulta rstr, donde se añade un - símbolo antes del valor.

  4. No compatible: el parámetro pages ya no es compatible. Los trabajos deben enviarse por separado cambiando el valor de la página actual en la URL.

Ejemplos de URL construidas

Ejemplo de trabajo equivalente

Desmantelado yandex_search fuente:

Actualizado universal fuente:

Wayfair

Asignación de parámetros del trabajo a la URL:

Al formar las URL, siga estas instrucciones:

  1. Codificación de términos de búsqueda: los términos de búsqueda deben estar codificados en la URL. Por ejemplo, los espacios deben reemplazarse con %20, que representa un carácter de espacio en una URL.

  2. Parámetros: Si limit es igual a 48 y start_page es igual a 1, entonces los siguientes parámetros adicionales deben añadirse a la URL:

    1. command=dosearch

    2. new_keyword_search=true

Ejemplos de URL construidas

Ejemplo de trabajo equivalente

Desmantelado wayfair_search fuente:

Actualizado universal fuente:

Última actualización

¿Te fue útil?