LangChain

将 LangChain 框架与 Oxylabs Web Scraper API 配合使用,将网页数据拉入 LLM 工作流——在一个管道中收集、处理和分析。

LangChainOxylabs Web Scraper APIarrow-up-right 使您能够在相同的工作流中通过 LLM(大型语言模型)收集和处理网络数据。

概览

LangChain 是一个用于构建同时使用 LLM、工具、API 和网络数据的应用的框架。它支持 Python 和 JavaScript。与以下一起使用 Oxylabs Web Scraper API arrow-up-right一起使用以:

  • 在无需处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据

  • 在同一管道中使用 LLM 处理结果

  • 从提取到 AI 驱动输出构建端到端工作流

快速开始

创建您的 API 用户凭据:在 中注册以获取免费试用或购买产品 Oxylabs 仪表板arrow-up-right 注册免费试用或在 Oxylabs 仪表板中购买产品以创建您的 API 用户凭据(USERNAMEPASSWORD).

circle-exclamation

本指南将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

环境设置

在项目目录中创建一个 .env 在您的项目目录中创建一个文件,包含您的 Oxylabs API 用户和 OpenAI 凭据:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方法

将 Oxylabs Web Scraper API 与 LangChain 集成有两种主要方式:

使用 langchain-oxylabs 包

对于 Google 搜索查询,请使用专用的 langchain-oxylabsarrow-up-right 包,它提供了开箱即用的集成:

使用 Web Scraper API

对于除 Google 搜索之外访问其他网站,您可以直接向 Web Scraper API 发送请求:

针对特定目标的爬虫

Oxylabs 提供 专业化的爬虫 用于各种流行网站。以下是一些可用来源的示例:

网站
来源参数
必需参数

Google

google_search

query

Amazon

amazon_search

query, 域名 (可选)

Walmart

walmart_search

query

Target

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

要使用特定爬虫,请在 scrape_website 函数中修改 payload:

高级配置

处理动态内容

Web Scraper API 可以处理 JavaScript 渲染 通过添加 render 默认情况下,所有错误均计为警告并放置在

设置用户代理类型

您可以指定不同的 用户代理 以模拟不同设备:

使用目标特定参数

许多 针对特定目标的爬虫 支持额外参数:

class="product"

为生产应用实现适当的错误处理:

最后更新于

这有帮助吗?