For the complete documentation index, see llms.txt. This page is also available as Markdown.

ChatGPT

通过提交提示词提取 ChatGPT 响应,解析数据包括响应文本、Markdown 输出、引文、外部链接和 LLM 模型信息。

chatgpt `source` 用于提交提示词并检索 ChatGPT 对话响应。它会返回完整的 ChatGPT 响应文本及其结构化元数据。

请求示例

以下代码示例演示了如何提交提示词并获取带有解析结果的 ChatGPT 响应。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "chatgpt",
        "prompt": "best supplements for better sleep",
        "parse": true,
        "search": true,
        "geo_location": "United States"
    }'

我们使用同步的 Realtime 集成方法作为示例。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

抓取 ChatGPT 的基本设置和自定义选项。

参数
说明
默认值

source

设置爬虫。

chatgpt

prompt

要提交给 ChatGPT 的提示词或问题。必须少于 4000 个字符。

-

search

通过点击相关界面按钮,触发 ChatGPT 针对提示词执行网页搜索。

true

render

默认强制启用 JavaScript 渲染,用于 chatgpt. 更多信息.

-

parse

设置为 true.

false

geo_location

指定从哪个国家发送提示词。 更多信息.

-

callback_url

您的回调端点 URL。 更多信息

-

- 必填参数

结构化数据

网页爬虫API 能够提取 HTML 或 JSON 对象,其中包含 ChatGPT 输出,并提供结果页面中各元素的结构化数据。

chatgpt 结构化输出

输出数据字典

HTML 示例

JSON 结构

结构化的 chatgpt 输出包含诸如 URL, page, results等字段,以及更多内容。下表展示了我们解析的每个 ChatGPT 元素的详细列表,包括描述、数据类型和相关元数据。

特定结果类型的项目和字段数量可能会因提交的提示而异。

键名
说明
类型

url

ChatGPT 对话的 URL。

字符串

page

页码。

整数

内容

包含解析后的 ChatGPT 响应数据的对象。

对象

content.prompt

提交给 ChatGPT 的原始提示。

字符串

content.llm_model

使用的 ChatGPT 模型(例如,"gpt-4-o"、"gpt-3.5-turbo" 等)。

字符串

content.markdown_json

来自 ChatGPT 的完整响应 Markdown,JSON 格式。

数组

content.markdown_text

来自 ChatGPT 的完整响应 Markdown。

字符串

content.response_text

来自 ChatGPT 的完整响应文本。

字符串

content.citations

包含 URL 和文本的引用链接列表。

数组

content.links

响应中引用的外部链接列表。

数组

content.parse_status_code

解析操作的状态码。

整数

created_at

抓取任务创建时的时间戳。

timestamp

updated_at

抓取任务完成时的时间戳。

timestamp

job_id

与抓取任务关联的任务 ID。

字符串

geo_location

提交提示时所用的代理位置。

字符串

status_code

抓取任务的状态码。您可以查看所描述的抓取器状态码 这里.

整数

parser_type

用于拆分 HTML 内容的解析器类型。

字符串

最后更新于

这有帮助吗?