LangChain

将 LangChain 框架与 Oxylabs Web Scraper API 一起使用,以提取网页数据并将其输入到 LLM 工作流——在一个管道中收集、处理、分析。

LangChainOxylabs Web Scraper API 使您能够在同一工作流中通过 LLM(大语言模型)收集和处理网页数据。

概览

LangChain 是一个用于构建将 LLM 与工具、API 和网页数据结合使用的应用程序的框架。它同时支持 Python 和 JavaScript。可与以下一起使用 Oxylabs Web Scraper API 以:

  • 在不处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据

  • 在同一管道中使用 LLM 处理结果

  • 构建从提取到 AI 驱动输出的端到端工作流

快速开始

创建您的 API 用户凭证: 注册试用或在 产品 中购买该产品 Oxylabs 仪表板 注册试用或购买产品以创建您的 API 用户凭证(USERNAMEPASSWORD).

在本指南中我们将使用 Python 编程语言。使用 pip 安装所需库:

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

环境设置

在您的项目目录中创建一个 .env 在项目目录中创建一个文件,包含您的 Oxylabs API 用户和 OpenAI 凭据:

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量:

集成方法

将 Oxylabs Web Scraper API 与 LangChain 集成主要有两种方式:

使用 langchain-oxylabs 包

对于 Google 搜索查询,请使用专用的 langchain-oxylabs 包,它提供了一个开箱即用的集成:

使用 Web Scraper API

要访问除 Google 搜索以外的其他网站,您可以直接向 Web Scraper API 发送请求:

针对特定目标的爬虫

Oxylabs 提供 专用爬虫 用于各种流行网站。以下是一些可用来源的示例:

网站
Source parameter
必需参数

Google

google_search

query

Amazon

amazon_search

query, domain (可选)

Walmart

walmart_search

query

目标

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

要使用特定的爬虫,请修改 scrape_website 函数中的负载:

高级配置

处理动态内容

Web Scraper API 可以通过添加 JavaScript 渲染 来处理 render 参数来抑制警告/错误:

设置用户代理类型

您可以指定不同的 user agents 以模拟不同的设备:

使用目标特定参数

许多 针对特定目标的爬虫 支持附加参数:

错误处理

为生产应用实现适当的错误处理:

最后更新于

这有帮助吗?