For the complete documentation index, see llms.txt. This page is also available as Markdown.

LangChain

将 LangChain 框架与 Oxylabs 网页爬虫API 一起使用,提取网页数据并将其输入到 LLM 工作流中——在一个流水线中完成收集、处理、分析。

LangChainOxylabs 网页爬虫API 的集成使您能够在同一工作流中通过 LLM(大型语言模型)收集和处理网页数据。

概述

LangChain 是一个用于构建将 LLM 与工具、API 和网页数据结合使用的应用框架。它同时支持 Python 和 JavaScript。将其与 Oxylabs 网页爬虫API 一起使用,以便:

  • 抓取结构化数据,而无需处理 CAPTCHA、IP 封锁或 JS 渲染

  • 在同一管道中使用 LLM 处理结果

  • 构建从提取到 AI 驱动输出的端到端工作流

快速开始

创建您的 API 用户凭据:注册免费试用或在 Oxylabs 控制面板 中购买产品,以创建您的 API 用户凭据(USERNAMEPASSWORD).

在本指南中,我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

环境设置

创建一个 .env 文件到您的项目目录中,并填入您的 Oxylabs API 用户和 OpenAI 凭据:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方式

将 Oxylabs 网页爬虫API 与 LangChain 集成主要有两种方式:

使用 langchain-oxylabs 包

对于 Google 搜索查询,请使用专用的 langchain-oxylabs 包,它提供了开箱即用的集成:

使用网页爬虫API

对于访问 Google 搜索之外的其他网站,您可以直接向网页爬虫API 发送请求:

特定目标抓取器

Oxylabs 提供 专用抓取器 用于各种热门网站。以下是一些可用源的示例:

网站
source 参数
必需参数

Google

google_search

query

Amazon

amazon_search

query, domain (可选)

Walmart

walmart_search

query

Target

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

要使用特定抓取器,请修改 scrape_website 函数中的 payload:

高级配置

处理动态内容

网页爬虫API 可以通过添加 JavaScript 渲染 来处理 render 参数:

设置用户代理类型

您可以指定不同的 用户代理 以模拟不同设备:

使用特定目标参数

许多 特定目标抓取器 支持其他参数:

错误处理

为生产应用实现适当的错误处理:

最后更新于

这有帮助吗?