# Ejemplos de instrucciones de análisis El siguiente fragmento HTML se analiza usando instrucciones de análisis de ejemplo en las secciones siguientes. ### HTML de ejemplo ```html

Shoes

223.12

Super

Pants

60.12

Amazing
Quality

Calcetines

123.12

Muy
Bonitos
Calcetines

``` ### Mínimo indispensable {% hint style="info" %} Caso de uso: quieres extraer el texto de todos **shoes** **description** **items**. {% endhint %} *Ejemplo 1. Selección de elementos de descripción de Shoes usando XPath.* ```json { "shoes_description": { "_fns": [ { "_fn": "xpath", "_args": [ ".//div[@id='shoes']//li[@class='description-item']/text()" ] } ] } } ``` El `xpath` la función encontrará un solo elemento y lo pondrá en una lista como una cadena: ```json { "shoes_description": [ "Super" ] } ``` La `xpath` comportamiento de la función se describe [**aquí**](/products/es/web-scraper-api/features/custom-parser/writing-instructions-manually/list-of-functions.md). ### Instrucciones de análisis anidadas {% hint style="info" %} Caso de uso: quieres analizar toda la información relacionada con shoes. Además, el resultado analizado debe representar la estructura del documento del HTML proporcionado. {% endhint %} Estás apuntando a esta parte del HTML de ejemplo: ```html

Shoes

223.12

Super

``` Y te gustaría que el resultado analizado tuviera la siguiente estructura: ```json { "shoes": { "title": "Shoes", "price": "223.12", "description": [ "Super" ] } } ``` Las instrucciones de análisis se verían así. *Ejemplo 2. Las instrucciones de análisis se usan para analizar* `shoes` *información.* ```json { "shoes": { "title": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@id='shoes']/div[@class='title']/text()"] } ] }, "price": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@id='shoes']/div[@class='price']/text()"] } ] }, "description": { "_fns": [ { "_fn": "xpath", "_args": ["//div[@id='shoes']//li[@class='description-item']/text()"] } ] } } } ``` `xpath_one` funciona de forma similar a `xpath`, pero en lugar de devolver una lista de todas las coincidencias, **devuelve el primer elemento coincidente**. En el ejemplo anterior, la `shoes` propiedad es la única propiedad definida en el ámbito de instrucciones más externo. La `shoes` propiedad contiene instrucciones de análisis anidadas. El `shoes` el ámbito de instrucciones no tiene una canalización definida (`_fns` la propiedad falta). Esto significa que las canalizaciones definidas en `title`, `price`, y `description` los ámbitos usarán el documento en análisis como entrada de la canalización. En el Ejemplo 2, puedes ver una repetición de `//div[@id='shoes']` en expresiones XPath. La repetición se puede evitar definiendo una canalización en el `shoes` ámbito: *Ejemplo 3. Definición de una canalización en* `shoes` *las instrucciones del ámbito para evitar la repetición de la expresión XPath.* ```json { "shoes": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@id='shoes']"] } ], "title": { "_fns": [ { "_fn": "xpath_one", "_args": ["./div[@class='title']/text()"] } ] }, "price": { "_fns": [ { "_fn": "xpath_one", "_args": ["./div[@class='price']/text()"] } ] }, "description": { "_fns": [ { "_fn": "xpath", "_args": [".//li[@class='description-item']/text()"] } ] } } } ``` Al usar las instrucciones de análisis proporcionadas en el Ejemplo 3, Custom Parser hará lo siguiente: 1. Empezar procesando `shoes._fns` la canalización, que generará el `shoes` elemento HTML; 2. Tomar `shoes._fns` la salida de la canalización y usarla como entrada para las canalizaciones definidas en `title`, `price`, y `description` los ámbitos; 3. Procesar `title`, `price`, y `description` las canalizaciones para producir los valores finales. El resultado se verá igual que el resultado del Ejemplo 2: ```json { "shoes": { "title": "Shoes", "price": "223.12", "description": [ "Super" ] } } ``` La principal diferencia entre el Ejemplo 2 y el Ejemplo 3 es que en el Ejemplo 3, la canalización está definida en el `shoes` ámbito. **Esta canalización adicional selecciona el elemento de shoes y lo pasa a otras canalizaciones encontradas más profundamente en la jerarquía de instrucciones.** ### Lista de objetos anidados {% hint style="info" %} **Caso de uso:** Antes, querías analizar solo `shoes` información. Ahora quieres analizar la información de todos los productos en el HTML. {% endhint %} El [**HTML de ejemplo**](/products/es/web-scraper-api/features/custom-parser/writing-instructions-manually/parsing-instruction-examples.md#sample-html) se usa de nuevo como el documento en análisis. Si quieres que tu resultado analizado se vea así: ```json { "products": [ { "title": "Shoes", "price": "223.12", "description": [ "Super" ] }, { "title": "Pants", "price": "60.12", "description": [ "Amazing", "Quality" ] }, { "title": "Socks", "price": "123.12", "description": [ "Very", "Nice", "Socks" ] } ] } ``` Las instrucciones de análisis se verían así: *Ejemplo 4. Analizar todos los productos encontrados en el documento HTML.* ```json { "products": { "_fns": [ { "_fn": "xpath", "_args": ["//div[@class='product']"] } ], "_items": { "title": { "_fns": [ { "_fn": "xpath_one", "_args": ["./div[@class='title']/text()"] } ] }, "price": { "_fns": [ { "_fn": "xpath_one", "_args": ["./div[@class='price']/text()"] } ] }, "description": { "_fns": [ { "_fn": "xpath", "_args": [".//li[@class='description-item']/text()"] } ] } } } } ``` La estructura de la instrucción de análisis se parece a la del Ejemplo 3. Sin embargo, hay dos excepciones principales: 1. `xpath` se usa en lugar de `xpath_one` en `products._fns` la canalización. `products._fns` la canalización ahora generará una lista de todos los elementos que coincidan con la expresión XPath proporcionada (una lista de elementos de producto). 2. `_items` la propiedad reservada se usa para indicar que quieres formar una lista iterando por cada elemento de la salida de la `products._fns` canalización y **pasando/procesando cada elemento de la lista por separado** dentro del ámbito de la canalización. Si `_items` la propiedad reservada no se usara en las instrucciones de análisis del Ejemplo 4, el resultado analizado se vería así: ```json { "products": { "title": [ "Shoes", "Pants", "Socks" ], "price": [ "223.12", "60.12", "123.12" ], "description": [ [ "Super" ], [ "Amazing", "Quality" ], [ "Very", "Nice", "Socks" ] ] } } ``` {% hint style="warning" %} `_items` se usa para especificar que Custom Parser debe pasar ***elementos de lista separados*** en lugar de la ***lista completa*** dentro de las instrucciones de análisis. {% endhint %} ### Seleccionar el elemento N-ésimo de una lista Esta sección demuestra la flexibilidad de las canalizaciones. El mismo problema se puede abordar de distintas formas. Se pueden usar varias opciones para seleccionar el elemento N-ésimo de una lista de cualquier valor. {% hint style="info" %} **Caso de uso:** quieres seleccionar el segundo precio del producto de la página. {% endhint %} El [**HTML de ejemplo**](#sample-html) se usa de nuevo como ejemplo. Tienes varias opciones para seleccionar el 2.º producto. #### Opción 1 Puedes usar el selector XPath `[]` y definir la selección en la expresión XPath. *Ejemplo 5. Seleccionar el 2.º precio usando el selector \[] de XPath.* ```json { "second_price": { "_fns": [ { "_fn": "xpath", "_args": [ "(//div[@class='price'])[2]/text()" ] } ] } } ``` Resultado: ```json { "second_price": [ "60.12" ] } ``` #### Opción 2 También puedes usar la `xpath` función para encontrar todos los precios y canalizarlo a la función `select_nth`, que selecciona el elemento n-ésimo de la lista extraída de precios. *Ejemplo 6. Seleccionar el 2.º valor usando la función \`select\_nth\`.* ```json { "second_price": { "_fns": [ { "_fn": "xpath", "_args": [ "//div[@class='price']/text()" ] }, { "_fn": "select_nth", "_args": 1 } ] } } ``` Resultado: ```json { "second_price": "60.12" } ``` {% hint style="warning" %} Observa cómo la `select_nth` función devuelve un elemento de una lista mientras que la `xpath` función devuelve una lista de elementos, incluso si se encuentra un solo elemento. {% endhint %} #### Opción 3 Puedes usar `select_nth` con cualquier tipo de lista, incluidas listas de elementos HTML: *Ejemplo 7. Selección de todos los elementos HTML de producto con* `class="product"` *==> seleccionando el 2.º elemento de producto de la lista ==> extrayendo el texto del precio del elemento HTML de producto seleccionado*. ```json { "second_price": { "_fns": [ { "_fn": "xpath", "_args": ["//div[@class='product']"] }, { "_fn": "select_nth", "_args": 1 }, { "_fn": "xpath", "_args": ["./div[@class='price']/text()"] } ] } } ``` Resultado: ```json { "second_price": ["60.12"] } ``` ### Manejo de errores Cuando se da el siguiente fragmento HTML: ```html

Nice Shoes

223.12

Super

``` Y se intenta analizarlo con las siguientes instrucciones de análisis: ```json { "product": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@id='shoes']"] } ], "price": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@class='price']/text()"] } ] }, "title": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@class='title']/text()"] } ] }, "description": { "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@class='description']/text()"] }, { "_fn": "convert_to_float" } ] } } } ``` Custom Parser devolverá un resultado analizado donde `price` y `title` se analizaron normalmente, pero el `description` falló al analizarse debido a que la `convert_to_float` función no pudo convertir `cadena` a `float`: ```json { "product": { "price": "223.12", "title": "Shoes", "description": null }, "_warnings": [ { "_fn": "convert_to_float", "_fn_idx": 1, "_msg": "Failed to process function.", "_path": ".product.description" } ] } ``` Por defecto, todos los errores se contabilizan como advertencias y se colocan dentro de la `_warnings` lista. Si quieres ignorar los errores al analizar un campo, puedes suprimir las advertencias/errores con `"_on_error": "suppress"` parámetro: ```json { "product": { ..., "description": { "_on_error": "suppress", "_fns": [ { "_fn": "xpath_one", "_args": ["//div[@class='description']/text()"] }, { "_fn": "convert_to_float" } ] } } } ``` Lo que producirá el siguiente resultado: ```json { "product": { "price": "223.12", "title": "Shoes", "description": null } } ``` ### Matriz de matrices Custom Parser permite arrays N-dimensionales en los resultados analizados. Como ejemplo, usemos el siguiente fragmento HTML: ```html

``` Supongamos que quieres analizar el documento para que el resultado sea una matriz 2D 3x3 de enteros: ```json { "table": [ [1, 2, 3], [4, 5, 6], [7, 8, 9], ] } ``` Para analizar el HTML en el JSON anterior, puedes usar las siguientes instrucciones de análisis: ```json { "table": { "_fns": [ { "_fn": "xpath", "_args": ["//div[@class='row']"] }, { "_fn": "xpath", "_args": [".//div[@class='column']/text()"] }, { "_fn": "convert_to_int" } ] } } ``` --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://developers.oxylabs.io/products/es/web-scraper-api/features/custom-parser/writing-instructions-manually/parsing-instruction-examples.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.