LlamaIndex
利用 LlamaIndex 与 Oxylabs Web Scraper API 的集成,轻松引入在线内容并构建由 LLM 驱动的工作流。
LlamaIndex 与 Oxylabs Web Scraper API 集成使您能够在相同工作流中通过 LLM(大语言模型)抓取和处理网页数据。
概览
LlamaIndex 是一个用于将外部数据源构建为 LLM 应用的数据框架。与其配合使用可 Oxylabs Web Scraper API 以:
在不处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据
在同一管道中使用 LLM 处理结果
构建从提取到 AI 驱动输出的端到端工作流
快速开始
创建您的 API 用户凭据: 在页面中注册免费试用或购买该产品 Oxylabs 仪表板 注册试用或购买产品以创建您的 API 用户凭证(USERNAME 和 PASSWORD).
环境设置
在本指南中我们将使用 Python 编程语言。使用 pip 安装所需库:
pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web在您的项目目录中创建一个 .env 文件,包含您的 Oxylabs Web Scraper API 凭据和 OpenAI API 密钥:
OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key在您的 Python 脚本中加载这些环境变量:
集成方法
在 LlamaIndex 中通过 Web Scraper API 访问网页内容有两种方式:
Oxylabs Reader
该 llama-index-readers-oxylabs 模块包含特定类,使您能够从各种来源抓取数据:
Google 网页搜索
OxylabsGoogleSearchReader
Google 搜索广告
OxylabsGoogleAdsReader
亚马逊商品
OxylabsAmazonProductReader
亚马逊搜索
OxylabsAmazonSearchReader
亚马逊评论
OxylabsAmazonReviewsReader
YouTube 转录
OxylabsYoutubeTranscriptReader
例如,您可以提取 Google 搜索结果:
Oxylabs Web Reader
使用 OxylabsWebReader 类,您可以从任何 URL 中提取数据:
构建一个基本的 AI 搜索代理
下面是一个可以搜索 Google 并回答问题的简单 AI 代理示例:
高级配置
处理动态内容
Web Scraper API 可以处理 JavaScript 渲染:
设置用户代理类型
您可以指定不同的用户代理:
使用目标特定参数
许多目标特定的抓取器支持额外参数:
创建向量索引
LlamaIndex 对于从网页内容构建向量索引特别有用:
最后更新于
这有帮助吗?

