LlamaIndex

利用 LlamaIndex 与 Oxylabs Web Scraper API 的集成,轻松引入在线内容并构建由 LLM 驱动的工作流。

LlamaIndex 与 Oxylabs Web Scraper API 集成使您能够在相同工作流中通过 LLM(大语言模型)抓取和处理网页数据。

概览

LlamaIndex 是一个用于将外部数据源构建为 LLM 应用的数据框架。与其配合使用可 Oxylabs Web Scraper API 以:

  • 在不处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据

  • 在同一管道中使用 LLM 处理结果

  • 构建从提取到 AI 驱动输出的端到端工作流

快速开始

创建您的 API 用户凭据: 在页面中注册免费试用或购买该产品 Oxylabs 仪表板 注册试用或购买产品以创建您的 API 用户凭证(USERNAMEPASSWORD).

如果您的帐户需要多个 API 用户,请联系客户支持或使用我们的 24/7 在线聊天支持。

环境设置

在本指南中我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

在您的项目目录中创建一个 .env 文件,包含您的 Oxylabs Web Scraper API 凭据和 OpenAI API 密钥:

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方法

在 LlamaIndex 中通过 Web Scraper API 访问网页内容有两种方式:

Oxylabs Reader

llama-index-readers-oxylabs 模块包含特定类,使您能够从各种来源抓取数据:

API 数据源
读取器类

Google 网页搜索

OxylabsGoogleSearchReader

Google 搜索广告

OxylabsGoogleAdsReader

亚马逊商品

OxylabsAmazonProductReader

亚马逊搜索

OxylabsAmazonSearchReader

亚马逊评论

OxylabsAmazonReviewsReader

YouTube 转录

OxylabsYoutubeTranscriptReader

例如,您可以提取 Google 搜索结果:

Oxylabs Web Reader

使用 OxylabsWebReader 类,您可以从任何 URL 中提取数据:

构建一个基本的 AI 搜索代理

下面是一个可以搜索 Google 并回答问题的简单 AI 代理示例:

高级配置

处理动态内容

Web Scraper API 可以处理 JavaScript 渲染:

设置用户代理类型

您可以指定不同的用户代理:

使用目标特定参数

许多目标特定的抓取器支持额外参数:

创建向量索引

LlamaIndex 对于从网页内容构建向量索引特别有用:

最后更新于

这有帮助吗?