For the complete documentation index, see llms.txt. This page is also available as Markdown.

Perplexity

通过提交提示词提取 Perplexity 响应,解析数据包括答案文本、Markdown 输出、相关查询、引用来源、图片、内嵌产品等。

perplexity source 让你可以直接向 Perplexity 发送提示并捕获完整响应。它会以结构化格式返回生成的文本和相关元数据,以及结果的 Markdown 版本。

请求示例

下面的代码示例说明了如何向 Perplexity 发送提示并检索解析后的响应。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "perplexity",
        "prompt": "top 3 smartphones in 2025, compare pricing across US marketplaces",
        "geo_location": "United States",
        "parse": true
    }'

默认情况下,所有发送到 Perplexity 的请求都使用 JavaScript 渲染。使用 Realtime 集成方法时,请确保设置足够的超时时间(例如 180s)。

我们使用同步的 Realtime 集成方法作为示例。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

用于抓取 Perplexity 响应的基本设置和配置参数。

参数
说明
默认值

source

设置爬虫。

perplexity

prompt

要提交给 Perplexity 的提示或问题。

-

parse

设置为 true.

false

geo_location

指定从哪个国家发送提示词。 更多信息.

-

callback_url

您的回调端点 URL。 更多信息

-

- 必填参数

结构化数据

网页爬虫API 返回 HTML 文档或 Perplexity 输出的 JSON 对象,其中包含结果页面中的结构化数据。

perplexity 结构化输出

输出数据字典

HTML 示例

JSON 结构

结构化的 perplexity 输出包括以下字段,例如 url, model, answer_results,以及更多。下表分解了我们解析的页面元素,并附有说明、数据类型和相关元数据。

特定结果类型的项目和字段数量可能会因提交的提示而异。

字段
说明
类型

url

Perplexity 对话的 URL。

字符串

page

页码。

整数

内容

包含已解析 Perplexity 页面数据的对象。

对象

model

用于生成答案的 Perplexity 模型。

字符串

prompt_query

提交给 Perplexity 的原始提示。

字符串

displayed_tabs

Perplexity 界面中显示的选项卡(例如购物、图片)。

列表

answer_results

包含文本或嵌套内容的完整 Perplexity 响应。

列表或字符串

answer_results_md

以 Markdown 格式呈现的完整答案。

字符串

related_queries

与主提示相关的查询列表。

列表

top_images

包含顶部图片及其标题和 URL 的列表。

数组

inline_products

包含内联产品及其标题、价格、链接和其他元数据的列表。

数组

additional_results.hotels_results

包含酒店及其标题、URL、地址和其他酒店详细信息的列表。

数组

additional_results.places_results

包含地点及其标题、URL、坐标和其他元数据的列表。

数组

additional_results.videos_results

包含视频及其缩略图、标题、URL 和来源的列表。

数组

additional_results.shopping_results

包含购物条目及其标题、价格、URL 和其他产品元数据的列表。

数组

additional_results.sources_results

包含引用来源及其标题和 URL 的列表。

数组

additional_results.images_results

包含相关图片及其标题、图片 URL 和来源页面 URL 的列表。

数组

parse_status_code

解析操作的状态码。

整数

created_at

抓取任务创建时的时间戳。

timestamp

updated_at

抓取任务完成时的时间戳。

timestamp

job_id

与抓取任务关联的任务 ID。

字符串

geo_location

提交提示时所用的代理位置。

字符串

status_code

抓取任务的状态码。你可以查看所描述的抓取器状态码 这里.

整数

parser_type

用于拆分 HTML 内容的解析器类型。

字符串

附加结果和内联产品

除了主要的 AI 响应外,我们还会在 additional_results下返回额外数据,例如

  • images_results

  • sources_results

  • shopping_results

  • videos_results

  • places_results

  • hotels_results

这些数组是从原始结果页面中的选项卡提取的,仅在有相关内容可用时才会包含:

此外, inline_products 数组包含直接嵌入在响应中的产品:

最后更新于

这有帮助吗?