For the complete documentation index, see llms.txt. This page is also available as Markdown.

LlamaIndex

利用 LlamaIndex 与 Oxylabs 网页爬虫API 的集成,轻松摄取在线内容并构建由 LLM 驱动的工作流。

LlamaIndex 与 Oxylabs 网页爬虫API 的集成使你可以在同一工作流中通过 LLM(大语言模型)抓取并处理网页数据。

概览

LlamaIndex 是一个数据框架,用于构建带外部数据源的 LLM 应用。将其与 Oxylabs 网页爬虫API 一起使用以:

  • 抓取结构化数据,无需处理 CAPTCHA、IP 封锁或 JS 渲染

  • 在同一流水线中使用 LLM 处理结果

  • 从提取到 AI 驱动输出,构建端到端工作流

快速开始

创建你的 API 用户凭据: 注册免费试用,或在 Oxylabs 控制面板 中购买产品以创建你的 API 用户凭据(USERNAMEPASSWORD).

如果你账户需要多个 API 用户,请联系我们的客户支持,或通过我们的 24/7 实时聊天支持发送消息。

环境设置

在本指南中,我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

在你的项目目录中创建一个 .env 文件,写入你的 Oxylabs 网页爬虫API 凭据和 OpenAI API 密钥:

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

在 Python 脚本中加载这些环境变量:

集成方法

在 LlamaIndex 中,有两种方式通过网页爬虫API 访问网页内容:

Oxylabs Reader

llama-index-readers-oxylabs 模块包含一些特定类,可让你从各种来源抓取数据:

API 数据源
读取器类

Google 网页搜索

OxylabsGoogleSearchReader

Google 搜索广告

OxylabsGoogleAdsReader

Amazon 商品

OxylabsAmazonProductReader

Amazon 搜索

OxylabsAmazonSearchReader

Amazon 评论

OxylabsAmazonReviewsReader

YouTube 转录文本

OxylabsYoutubeTranscriptReader

例如,你可以提取 Google 搜索结果:

Oxylabs Web Reader

使用 OxylabsWebReader 类,你可以从任何 URL 提取数据:

构建一个基础 AI 搜索代理

下面是一个简单 AI 代理的示例,它可以搜索 Google 并回答问题:

高级配置

处理动态内容

网页爬虫API 可以处理 JavaScript 渲染:

设置用户代理类型

你可以指定不同的用户代理:

使用目标特定参数

许多目标特定爬虫支持额外参数:

创建向量索引

LlamaIndex 对于从网页内容构建向量索引特别有用:

最后更新于

这有帮助吗?