LlamaIndex

利用 LlamaIndex 与 Oxylabs 网页爬虫 API 的集成，轻松摄取在线内容并构建 LLM 驱动的工作流。

LlamaIndex 与 Oxylabs Web Scraper API 集成，使您能够在相同工作流中通过 LLM（大型语言模型）抓取并处理网页数据。

概览

LlamaIndex 是一个用于使用外部数据源构建 LLM 应用的数据框架。与 Oxylabs Web Scraper API 一起使用以：

在无需处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据
在同一管道中使用 LLM 处理结果
从提取到 AI 驱动输出构建端到端工作流

快速开始

创建您的 API 用户凭据： 在 Oxylabs 仪表板 注册免费试用或在 Oxylabs 仪表板中购买产品以创建您的 API 用户凭据（USERNAME 和 PASSWORD).

如果您的账户需要多个 API 用户，请联系客户支持或通过我们的 24/7 在线聊天支持留言。

环境设置

本指南将使用 Python 编程语言。使用 pip 安装所需库：

pip install -qU llama-index llama-index-readers-oxylabs llama-index-readers-web

在项目目录中创建一个 .env 文件，并将您的 Oxylabs Web Scraper API 凭据和 OpenAI API 密钥放入其中：

OXYLABS_USERNAME=your_API_username
OXYLABS_PASSWORD=your_API_password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量：

import os
from dotenv import load_dotenv

load_dotenv()

集成方法

在 LlamaIndex 中通过 Web Scraper API 访问网页内容有两种方式：

Oxylabs Reader

该 llama-index-readers-oxylabs 模块包含特定类，使您能够从各种来源抓取数据：

API 数据源

读取器类

Google 网络搜索

OxylabsGoogleSearchReader

Google 搜索广告

OxylabsGoogleAdsReader

亚马逊商品

OxylabsAmazonProductReader

亚马逊搜索

OxylabsAmazonSearchReader

亚马逊评论

OxylabsAmazonReviewsReader

YouTube 转录

OxylabsYoutubeTranscriptReader

例如，您可以提取 Google 搜索结果：

import os
from dotenv import load_dotenv
from llama_index.readers.oxylabs import OxylabsGoogleSearchReader

load_dotenv()
reader = OxylabsGoogleSearchReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)
results = reader.load_data({
    'query': 'best pancake recipe',
    'parse': True
})
print(results[0].text)

Oxylabs Web Reader

使用 OxylabsWebReader 类，您可以从任何 URL 提取数据：

import os
from dotenv import load_dotenv
from llama_index.readers.web import OxylabsWebReader

load_dotenv()
reader = OxylabsWebReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)
results = reader.load_data(
    [
        'https://sandbox.oxylabs.io/products/1',
        'https://sandbox.oxylabs.io/products/2'
    ]
)
for result in results:
    print(result.text + '\n')

构建一个基础的 AI 搜索代理

下面是一个可以搜索 Google 并回答问题的简单 AI 代理示例：

import os
import asyncio
from dotenv import load_dotenv
from llama_index.readers.oxylabs import OxylabsGoogleSearchReader
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai import OpenAI

load_dotenv()
reader = OxylabsGoogleSearchReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)

def web_search(query: str) -> str:
    results = reader.load_data({'query': query, 'parse': True})
    return results[0].text

agent = FunctionAgent(
    tools=[web_search],
    llm=OpenAI(model='gpt-4o-mini'),
    max_function_calls=1,
    system_prompt=(
        'Craft a short Google search query to use with the `web_search` tool. '
        'Analyze the most relevant results and answer the question.'
    )
)

async def main():
    response = await agent.run('How did DeepSeek affect the stock market?')
    print(response)

if __name__ == '__main__':
    asyncio.run(main())

高级配置

处理动态内容

Web Scraper API 可以处理 JavaScript 渲染：

reader = OxylabsWebReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)

results = reader.load_data(
    [
        'https://quotes.toscrape.com/js/'
    ],
    {'render': 'html'}
)

设置用户代理类型

您可以指定不同的用户代理：

reader = OxylabsWebReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)

results = reader.load_data(
    [
        'https://sandbox.oxylabs.io/products/1'
    ],
    {'user_agent_type': 'mobile'}
)

使用目标特定参数

许多目标特定的抓取器支持额外参数：

reader = OxylabsGoogleSearchReader(
    os.getenv('OXYLABS_USERNAME'),
    os.getenv('OXYLABS_PASSWORD')
)
results = reader.load_data({
    'query': 'iphone',
    'parse': True,
    'domain': 'com',
    'start_page': 2,
    'pages': 3
})

创建向量索引

LlamaIndex 对于从网页内容构建向量索引特别有用：

import os
from dotenv import load_dotenv
from llama_index.readers.web import OxylabsWebReader
from llama_index.core import Settings, VectorStoreIndex
from llama_index.llms.openai import OpenAI

load_dotenv()
reader = OxylabsWebReader(
    os.getenv('OXYLABS_USERNAME'), os.getenv('OXYLABS_PASSWORD')
)
documents = reader.load_data([
    'https://sandbox.oxylabs.io/products/1',
    'https://sandbox.oxylabs.io/products/2'
])

# 配置 LlamaIndex 设置
Settings.llm = OpenAI(model='gpt-4o-mini')

# 创建索引
index = VectorStoreIndex.from_documents(documents)

# 查询索引
query_engine = index.as_query_engine()
response = query_engine.query('What is the main topic of these pages?')
print(response)

最后更新于16天前

这有帮助吗？

早上好

hashtag概览

hashtag快速开始

hashtag环境设置

hashtag集成方法

hashtagOxylabs Reader

hashtagOxylabs Web Reader

hashtag构建一个基础的 AI 搜索代理

hashtag高级配置

hashtag处理动态内容

hashtag设置用户代理类型

hashtag使用目标特定参数

hashtag创建向量索引

概览