LangChain

将 LangChain 框架与 Oxylabs 网页爬虫 API 结合使用，将网络数据拉入 LLM 工作流——在一个流水线中收集、处理、分析。

该 LangChain 与 Oxylabs Web Scraper API 使您能够在相同的工作流中通过 LLM（大型语言模型）收集和处理网络数据。

概览

LangChain 是一个用于构建同时使用 LLM、工具、API 和网络数据的应用的框架。它支持 Python 和 JavaScript。与以下一起使用 Oxylabs Web Scraper API 一起使用以：

在无需处理 CAPTCHA、IP 封锁或 JS 渲染的情况下抓取结构化数据
在同一管道中使用 LLM 处理结果
从提取到 AI 驱动输出构建端到端工作流

快速开始

创建您的 API 用户凭据：在中注册以获取免费试用或购买产品 Oxylabs 仪表板 注册免费试用或在 Oxylabs 仪表板中购买产品以创建您的 API 用户凭据（USERNAME 和 PASSWORD).

如果您的帐户需要多个 API 用户，请联系我们的 客户支持 或通过我们的 24/7 在线聊天支持发送消息。

本指南将使用 Python 编程语言。使用 pip 安装所需库：

pip install -qU langchain-oxylabs langchain-openai langgraph requests python-dotenv

环境设置

在项目目录中创建一个 .env 在您的项目目录中创建一个文件，包含您的 Oxylabs API 用户和 OpenAI 凭据：

OXYLABS_USERNAME=your-username
OXYLABS_PASSWORD=your-password
OPENAI_API_KEY=your-openai-key

在您的 Python 脚本中加载这些环境变量：

import os
from dotenv import load_dotenv

load_dotenv()

集成方法

将 Oxylabs Web Scraper API 与 LangChain 集成有两种主要方式：

使用 langchain-oxylabs 包

对于 Google 搜索查询，请使用专用的 langchain-oxylabs 包，它提供了开箱即用的集成：

import os
from dotenv import load_dotenv
from langchain.chat_models import init_chat_model
from langgraph.prebuilt import create_react_agent
from langchain_oxylabs import OxylabsSearchAPIWrapper, OxylabsSearchRun

load_dotenv()

# 初始化您首选的 LLM 模型
llm = init_chat_model(
    "gpt-4o-mini",
    model_provider="openai",
    api_key=os.getenv("OPENAI_API_KEY")
)

# 初始化 Google 搜索工具
search = OxylabsSearchRun(
    wrapper=OxylabsSearchAPIWrapper(
        oxylabs_username=os.getenv("OXYLABS_USERNAME"),
        oxylabs_password=os.getenv("OXYLABS_PASSWORD")
    )
)

# 创建一个使用 Google 搜索工具的 agent
agent = create_react_agent(llm, [search])

# 示例用法
user_input = "When and why did the Maya civilization collapse?"
response = agent.invoke({"messages": user_input})
print(response["messages"][-1].content)

使用 Web Scraper API

对于除 Google 搜索之外访问其他网站，您可以直接向 Web Scraper API 发送请求：

import os
import requests
from dotenv import load_dotenv
from langchain_openai import OpenAI
from langchain_core.prompts import PromptTemplate

load_dotenv()

def scrape_website(url):
    """使用 Oxylabs Web Scraper API 抓取网站"""
    payload = {
        "source": "universal",
        "url": url,
        "parse": True
    }
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload
    )
    
    if response.status_code == 200:
        data = response.json()
        content = data["results"][0]["content"]
        return str(content)
    else:
        print(f"Failed to scrape website: {response.text}")
        return None

def process_content(content):
    """使用 LangChain 处理抓取的内容"""
    if not content:
        print("No content to process.")
        return None
        
    prompt = PromptTemplate.from_template(
        "Analyze the following website content and summarize key points: {content}"
    )
    chain = prompt | OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
    result = chain.invoke({"content": content})
    return result

def main(url):
    print("Scraping website...")
    scraped_content = scrape_website(url)
    if scraped_content:
        print("Processing scraped content with LangChain...")
        analysis = process_content(scraped_content)
        print("\nProcessed Analysis:\n", analysis)
    else:
        print("No content scraped.")

if __name__ == "__main__":
    url = "https://sandbox.oxylabs.io/products/1"
    main(url)

针对特定目标的爬虫

Oxylabs 提供 专业化的爬虫 用于各种流行网站。以下是一些可用来源的示例：

网站

来源参数

必需参数

Google

google_search

query

Amazon

amazon_search

query, 域名 （可选）

Walmart

walmart_search

query

Target

target_search

query

Kroger

kroger_search

query, store_id

Staples

staples_search

query

要使用特定爬虫，请在 scrape_website 函数中修改 payload：

# Amazon 搜索示例
payload = {
    "source": "amazon_search",
    "query": "smartphone",
    "domain": "com",
    "parse": True
}

高级配置

处理动态内容

Web Scraper API 可以处理 JavaScript 渲染 通过添加 render 默认情况下，所有错误均计为警告并放置在

payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html"
}

设置用户代理类型

您可以指定不同的 用户代理 以模拟不同设备：

payload = {
    "source": "universal",
    "url": url,
    "parse": True,
    "render": "html",
    "user_agent_type": "mobile"
}

使用目标特定参数

许多 针对特定目标的爬虫 支持额外参数：

# Kroger 带位置信息参数示例
payload = {
    "source": "kroger_search",
    "query": "organic milk",
    "store_id": "01100002",
    "fulfillment_type": "pickup"
}

class="product"

为生产应用实现适当的错误处理：

try:
    response = requests.post(
        "https://realtime.oxylabs.io/v1/queries",
        auth=(os.getenv("OXYLABS_USERNAME"), os.getenv("OXYLABS_PASSWORD")),
        json=payload,
        timeout=60
    )
    response.raise_for_status()
    # 处理响应
except requests.exceptions.HTTPError as http_err:
    print(f"HTTP error occurred: {http_err}")
except requests.exceptions.ConnectionError as conn_err:
    print(f"Connection error occurred: {conn_err}")
except requests.exceptions.Timeout as timeout_err:
    print(f"Timeout error occurred: {timeout_err}")
except requests.exceptions.RequestException as req_err:
    print(f"An error occurred: {req_err}")

上一页Model Context Protocol (MCP)下一页LlamaIndex

最后更新于29天前

这有帮助吗？

晚上好

hashtag概览

hashtag快速开始

hashtag环境设置

hashtag集成方法

hashtag使用 langchain-oxylabs 包

hashtag使用 Web Scraper API

hashtag针对特定目标的爬虫

hashtag高级配置

hashtag处理动态内容

hashtag设置用户代理类型

hashtag使用目标特定参数

hashtagclass="product"

概览

快速开始

环境设置

集成方法

使用 langchain-oxylabs 包

使用 Web Scraper API

针对特定目标的爬虫

高级配置

处理动态内容

设置用户代理类型

使用目标特定参数

class="product"