LlamaIndex

利用 Oxylabs 网页爬虫API 的 LlamaIndex 集成,轻松摄取在线内容并构建 LLM 驱动的工作流。

LlamaIndex 与以下服务的集成 Oxylabs 网页爬虫API 使您能够在同一工作流中通过 LLM(大型语言模型)抓取和处理网页数据。

概述

LlamaIndex 是一个数据框架,旨在使用外部数据源构建 LLM 应用程序。将它与 Oxylabs 网页爬虫API 一起使用,以:

  • 抓取结构化数据,而无需处理 CAPTCHA、IP 封锁或 JS 渲染

  • 在同一管道中使用 LLM 处理结果

  • 构建从提取到 AI 驱动输出的端到端工作流

开始使用

创建您的 API 用户凭证: 注册免费试用版或在以下位置购买该产品 Oxylabs 仪表板 中购买产品,以创建你的 API 用户凭证(USERNAMEPASSWORD).

如果您的账户需要多个 API 用户,请联系我们的客户支持或通过我们的 24/7 在线聊天支持发送消息。

环境设置

在本指南中,我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

创建一个 .env 文件,在您的项目目录中填入您的 Oxylabs 网页爬虫API 凭证和 OpenAI API 密钥:

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方法

在 LlamaIndex 中,有两种方式可以通过 网页爬虫API 访问网页内容:

Oxylabs Reader

llama-index-readers-oxylabs 模块包含特定类,使您能够从各种来源抓取数据:

API 数据源
读取器类

Google 网页搜索

OxylabsGoogleSearchReader

Google 搜索广告

OxylabsGoogleAdsReader

Amazon 产品

OxylabsAmazonProductReader

Amazon 搜索

OxylabsAmazonSearchReader

Amazon 评论

OxylabsAmazonReviewsReader

YouTube 文稿

OxylabsYoutubeTranscriptReader

例如,您可以提取 Google 搜索结果:

Oxylabs Web Reader

使用 OxylabsWebReader 类,您可以从任何 URL 提取数据:

构建一个基础 AI 搜索代理

下面是一个简单 AI 代理的示例,它可以搜索 Google 并回答问题:

高级配置

处理动态内容

网页爬虫API 可以处理 JavaScript 渲染:

设置 user agent 类型

您可以指定不同的 user agent:

使用目标特定参数

许多特定目标爬虫支持附加参数:

创建向量索引

LlamaIndex 特别适合从网页内容构建向量索引:

最后更新于

这有帮助吗?