For the complete documentation index, see llms.txt. This page is also available as Markdown.

Python SDK

了解如何使用 AI Studio Python SDK。

我们提供一个简单的 Python SDK,可无缝与 Oxylabs AI Studio API 服务交互,包括 AI-Scraper、AI-Crawler、AI-Browser-Agent 以及其他数据提取工具。

要求

  • python 3.10 及以上

  • AI Studio API key

安装

pip install oxylabs-ai-studio

用法

爬取(AiCrawler.crawl)

from oxylabs_ai_studio.apps.ai_crawler import AiCrawler

crawler = AiCrawler(api_key="<API_KEY>")

url = "https://oxylabs.io"
result = crawler.crawl(
    url=url,
    user_prompt="查找所有包含代理产品价格的页面",
    output_format="markdown",
    render_javascript=False,
    return_sources_limit=3,
    geo_location="US",
)
print("结果:")
for item in result.data:
    print(item, "\n")

输入参数

  • url (字符串):要爬取的起始 URL(必需)

  • user_prompt (字符串):用于指导提取的自然语言提示(必需)

  • output_format (Literal["json", "markdown"]):输出格式(默认:"markdown")

  • schema (dict | None):用于结构化提取的 OpenAPI schema(当 output_format 为 "json" 时必需)

  • render_javascript (布尔值):渲染 JavaScript(默认:False)

  • return_sources_limit (整数):返回的最大来源数量(默认:25)

  • geo_location (字符串):ISO2 格式的代理位置。

抓取(AiScraper.scrape)

输入参数

  • url (字符串):要抓取的目标 URL(必需)

  • output_format (Literal["json", "markdown"]):输出格式(默认:"markdown")

  • schema (dict | None):用于结构化提取的 OpenAPI schema(当 output_format 为 "json" 时必需)

  • render_javascript (布尔值):渲染 JavaScript(默认:False)

  • geo_location (字符串):ISO2 格式的代理位置。

Browser Agent(BrowserAgent.run)

输入参数

  • url (字符串):要浏览的起始 URL(必需)

  • user_prompt (字符串):用于提取的自然语言提示(必需)

  • output_format (Literal["json", "markdown", "html", "screenshot"]):输出格式(默认:"markdown")

  • schema (dict | None):用于结构化提取的 OpenAPI schema(当 output_format 为 "json" 时必需)

  • geo_location (字符串):ISO2 格式的代理位置。

搜索(AiSearch.search)

输入参数

  • query (字符串):要搜索的内容(必需)

  • limit (整数):返回结果的最大数量(默认:10,最大:50)

  • render_javascript (布尔值):渲染 JavaScript(默认:False)

  • return_content (布尔值):是否在结果中返回 Markdown 内容(默认:True)

  • geo_location (字符串):ISO2 格式的搜索代理位置。

地图(AiMap.map)

输入参数

  • url (字符串):要爬取的起始 URL(必需)

  • user_prompt (字符串):用于指导提取的自然语言提示(必需)

  • render_javascript (布尔值):渲染 JavaScript(默认:False)

  • return_sources_limit (整数):返回的最大来源数量(默认:25)

  • geo_location (字符串):ISO2 格式的代理位置。

用法示例

请参阅我们的 GitHub 中的 examples 文件夹,了解每个方法的详细用法示例(每个方法都有对应的 async 版本)。

最后更新于

这有帮助吗?