For the complete documentation index, see llms.txt. This page is also available as Markdown.

LangChain

结合使用 LangChain 框架和 Oxylabs 网页爬虫API 来提取网页数据并将其输入 LLM 工作流——在一个流水线中完成采集、处理和分析。

LangChain 与以下内容的集成 Oxylabs 网页爬虫API 使您能够在同一工作流中通过 LLM(大型语言模型)收集和处理网页数据。

概述

LangChain 是一个用于构建应用的框架,可让 LLM 与工具、API 和网页数据结合使用。它同时支持 Python 和 JavaScript。将它与 Oxylabs 网页爬虫API 一起使用,以:

  • 抓取结构化数据,而无需处理 CAPTCHA、IP 封锁或 JS 渲染

  • 在同一管道中使用 LLM 处理结果

  • 构建从提取到 AI 驱动输出的端到端工作流

开始使用

创建你的 API 用户凭证一起使用:注册免费试用,或在以下位置购买产品 Oxylabs 仪表板 中购买产品,以创建你的 API 用户凭证(USERNAMEPASSWORD).

在本指南中,我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

环境设置

创建一个 .env 在您的项目目录中创建 `file`,并填入您的 Oxylabs API 用户名和 OpenAI 凭据:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方法

将 Oxylabs 网页爬虫API 与 LangChain 集成主要有两种方式:

使用 langchain-oxylabs 包

对于 Google 搜索查询,请使用专用的 langchain-oxylabs 包,它提供了可直接使用的集成:

使用网页爬虫API

如需访问 Google 搜索之外的其他网站,您可以直接向网页爬虫API发送请求:

特定目标抓取器

Oxylabs 提供 专用抓取器 适用于各种常见网站。以下是一些可用源的示例:

网站
源参数
必需参数

Google

google_search

query

Amazon

amazon_search

query, 域名 (可选)

Walmart

walmart_search

query

目标

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

要使用特定抓取器,请修改 scrape_website 函数中的 `payload`:

高级配置

处理动态内容

网页爬虫API可以处理 JavaScript 渲染 方法是添加 render 参数:

设置 user agent 类型

您可以指定不同的 用户代理 以模拟不同设备:

使用目标特定参数

许多 特定目标抓取器 支持附加参数:

错误处理

为生产应用实现适当的错误处理:

最后更新于

这有帮助吗?