Perplexity

了解如何抓取 Perplexity 的响应并使用 网页爬虫 API 获取结构化数据。查找全面的代码示例和输出样本。

perplexity source 允许你直接向 Perplexity 发送提示并捕获完整响应。它以结构化格式返回生成的文本和相关元数据,以及结果的 Markdown 版本。

请求示例

下面的代码示例演示如何向 Perplexity 发送提示并检索解析后的响应。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "perplexity",
        "prompt": "top 3 smartphones in 2025, compare pricing across US marketplaces",
        "geo_location": "United States",
        "parse": true
    }'
circle-info

默认情况下,所有对 Perplexity 的请求都使用 JavaScript 渲染。在使用 Realtime 集成方法时,请确保设置足够的超时(例如 180 秒)。

我们的示例使用 Realtime (同步) 集成方法。要使用 Proxy EndpointPush-Pull (异步),请参考 integration methods 页面。

circle-exclamation

请求参数值

通用

用于抓取 Perplexity 响应的基本设置和配置参数。

参数
描述
默认值

source

设置要使用的抓取器。

perplexity

prompt

要提交给 Perplexity 的提示或问题。

-

parse

当设置为 true.

false

geo_location

指定从哪个国家/地区发送提示。 更多信息.

-

callback_url

你的回调端点的 URL。 更多信息.

-

- 必填参数

结构化数据

网页爬虫 API 返回 Perplexity 输出的 HTML 文档或 JSON 对象,其中包含结果页面的结构化数据。

chevron-rightperplexity 结构化输出hashtag

输出数据字典

HTML 示例

JSON 结构

结构化 perplexity 输出包括诸如以下的字段 url, model, answer_results等。下表分解了我们解析的页面元素,以及描述、数据类型和相关元数据。

circle-info

特定结果类型的项数和字段可能会根据提交的提示而变化。

字段
描述
类型

url

Perplexity 对话的 URL。

字符串

page

页码。

整数

content

包含解析后 Perplexity 页面数据的对象。

对象

model

用于生成答案的 Perplexity 模型。

字符串

prompt_query

提交给 Perplexity 的原始提示。

字符串

displayed_tabs

Perplexity 界面中显示的标签(例如,购物、图片)。

列表

answer_results

包含文本或嵌套内容的完整 Perplexity 响应。

列表 或 字符串

answer_results_md

以 Markdown 格式呈现的完整答案。

字符串

related_queries

与主提示相关的查询列表。

列表

top_images

包含标题和 URL 的热门图片列表。

数组

inline_products

包含标题、价格、链接和其他元数据的内联产品列表。

数组

additional_results.hotels_results

包含标题、URL、地址和其他酒店详情的酒店列表。

数组

additional_results.places_results

包含标题、URL、坐标和其他元数据的地点列表。

数组

additional_results.videos_results

包含缩略图、标题、URL 和来源的视频列表。

数组

additional_results.shopping_results

包含标题、价格、URL 和其他产品元数据的购物商品列表。

数组

additional_results.sources_results

包含引用来源及其标题和 URL 的列表。

数组

additional_results.images_results

包含标题、图片 URL 和来源页面 URL 的相关图片列表。

数组

parse_status_code

解析操作的状态码。

整数

created_at

创建该爬取任务的时间戳。

timestamp

updated_at

爬取任务完成的时间戳。

timestamp

job_id

与该爬取任务关联的任务 ID。

字符串

geo_location

提交请求时使用的代理位置。

字符串

status_code

爬取任务的状态码。你可以查看描述爬虫状态码的说明 here.

整数

parser_type

用于解析 HTML 内容的解析器类型。

字符串

附加结果和内联产品

除了主要的 AI 响应外,我们还在 additional_results下返回额外数据,例如

  • images_results

  • sources_results

  • shopping_results

  • videos_results

  • places_results

  • hotels_results

这些数组从原始结果页面的选项卡中提取,只有在存在相关内容时才包含:

此外, inline_products 数组包含直接嵌入在响应中的产品:

最后更新于

这有帮助吗?