LangChain
将 LangChain 框架与 Oxylabs Web Scraper API 一起使用,以提取网页数据并将其输入到 LLM 工作流——在一个管道中收集、处理、分析。
该 LangChain 与 Oxylabs Web Scraper API 使您能够在同一工作流中通过 LLM(大语言模型)收集和处理网页数据。
概览
LangChain 是一个用于构建将 LLM 与工具、API 和网页数据结合使用的应用程序的框架。它同时支持 Python 和 JavaScript。可与以下一起使用 Oxylabs Web Scraper API 以:
在不处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据
在同一管道中使用 LLM 处理结果
构建从提取到 AI 驱动输出的端到端工作流
快速开始
创建您的 API 用户凭证: 注册试用或在 产品 中购买该产品 Oxylabs 仪表板 注册试用或购买产品以创建您的 API 用户凭证(USERNAME 和 PASSWORD).
如果您需要为帐户创建多个 API 用户,请联系 客户支持 或使用我们的 24/7 在线聊天支持发送消息。
在本指南中我们将使用 Python 编程语言。使用 pip 安装所需库:
pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv环境设置
在您的项目目录中创建一个 .env 在项目目录中创建一个文件,包含您的 Oxylabs API 用户和 OpenAI 凭据:
OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key在您的 Python 脚本中加载这些环境变量:
集成方法
将 Oxylabs Web Scraper API 与 LangChain 集成主要有两种方式:
使用 langchain-oxylabs 包
对于 Google 搜索查询,请使用专用的 langchain-oxylabs 包,它提供了一个开箱即用的集成:
使用 Web Scraper API
要访问除 Google 搜索以外的其他网站,您可以直接向 Web Scraper API 发送请求:
针对特定目标的爬虫
Oxylabs 提供 专用爬虫 用于各种流行网站。以下是一些可用来源的示例:
google_search
query
Amazon
amazon_search
query, domain (可选)
Walmart
walmart_search
query
目标
target_search
query
Kroger
kroger_search
query, store_id
Staples
staples_search
query
要使用特定的爬虫,请修改 scrape_website 函数中的负载:
高级配置
处理动态内容
Web Scraper API 可以通过添加 JavaScript 渲染 来处理 render 参数来抑制警告/错误:
设置用户代理类型
您可以指定不同的 user agents 以模拟不同的设备:
使用目标特定参数
许多 针对特定目标的爬虫 支持附加参数:
错误处理
为生产应用实现适当的错误处理:
最后更新于
这有帮助吗?

