Documentation has been updated: see help center and changelog in one place.

图片搜索

google_search 该 source 旨在检索 Google 搜索结果 (SERPs)。此子页面专门展示与 Google 图片搜索 相关的数据。要查看其他结果类型,请阅读: 网页搜索, 新闻搜索.

查看输出 数据字典 针对每个图片 SERP 功能,提供简要描述、截图、解析后的 JSON 代码片段以及定义每个解析字段的表格。可通过右侧导航或向下滚动页面浏览详细信息。

请求示例

在下面的示例中,我们发出请求以获取搜索词的图片搜索结果页面 adidasgoogle.nl 域。

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "domain": "nl",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "2"
            }
        ]
    }'

tbm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "domain": "nl",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "tbm",
                "value": "isch"
            }
        ]
    }'

在我们的示例中,我们使用同步的 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步的 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

用于抓取 Google 图片搜索结果的基本设置和自定义选项。

参数
说明
默认值

source

设置抓取器。

google_search

query

要搜索的关键字或短语。

-

context: udm

要获取图片搜索结果,请将值设置为 2。 查找其他可接受的值 此处.

-

context: tbm

要获取图片搜索结果,请将值设置为 isch。 其他可接受的值: app, blg, bks, dsc, nws, pts, plcs, rcp, lcl。

-

render

启用 JavaScript 渲染,当设置为 html. 更多信息.

-

parse

当设置为以下值时返回解析后的数据 true。 查看输出 数据字典.

false

callback_url

回调端点的 URL。 更多信息.

-

user_agent_type

设备类型和浏览器。完整列表可在 此处.

desktop

- 必填参数

- udmtbm context 参数不能在单个抓取请求中一起使用; 请从中选择一个。 同时使用两者可能导致冲突或意外行为。

Google 高级搜索运算符

在抓取时,将 Google 高级搜索运算符与查询结合使用可能很有用。它使您能够自定义搜索范围,确保结果更相关、更聚焦。探索这些特殊命令 此处此处。参见下面示例。

{
    "source": "google_search",
    "query": "iphone 15 launch inurl:apple",
}

本地化

将搜索结果适配到特定的地理位置、域和语言。

参数
说明
默认值

geo_location

应为其适配结果的地理位置。正确使用此参数对于获取正确数据非常重要。有关更多信息,请阅读我们建议的 geo_location 参数结构 此处.

-

domain

Google 的域本地化。可用域的完整列表可在此处找到 此处.

com

locale

Accept-Language 更改您 Google 搜索页面 Web 界面语言的请求头值。 更多信息.

-

分页

用于管理分页和检索搜索结果的控制项。

参数
说明
默认值

start_page

起始页码。

1

pages

要检索的页数。

1

过滤

根据各种条件筛选和细化搜索结果的选项。

参数
说明
默认值

context:safe_search

安全搜索。设置为 true 以启用它。

false

context: tbs

tbs 参数。该参数类似于容纳更晦涩 Google 参数的容器,比如按日期限制/排序结果以及其他一些过滤器,其中有些取决于 tbm 参数(例如 tbs=app_os:1 仅在与 tbm value app一起使用时可用)。更多信息 此处.

-

其他

用于专门需求的附加高级设置和控制。

参数
说明
默认值

context: fpstate

fpstate 的值设置为 aig 将使 Google 加载更多应用。仅在与 render 参数一起使用时该参数才有用。

-

context: nfpr

true 将关闭拼写自动更正

false

上下文参数

所有上下文参数应作为对象添加到 context 数组中,包含 keyvalue 键值对,例如:

...
"context": [
    {
        "key": "filter",
        "value": "0"
    }
]
...

结构化数据

SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象,为结果页面的各个元素提供结构化数据。

google_search 图片结构化输出
{
    "results": [
        {
            "content": {
                "url": "https://www.google.com/search?q=adidas&tbm=isch&gbv=1&uule=w+CAIQICINdW5pdGVkIHN0YXRlcw&gl=us&hl=en",
                "results": {
                    "organic": [
                        {
                            "pos": 1,
                            "link": "/url?q=https://www.adidas.com/us/superstar-shoes/EG4958.html&sa=U&ved=2ahUKEwiP4pv98dH3AhUY8rsIHTP1C64QqoUBegQIAxAB&usg=AOvVaw1qdoyk_FXXss1qGlPCyT1k",
                            "image": "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQaV6fadzwfHzBcTbF0i3Uat_MLSvoJ6702u7iONGGz2jwdItge9zQTi6gjhg&s",
                            "title": "Men's Superstar Cloud White...",
                            "domain": "www.adidas.com",
                            "pos_overall": 1
                        },
                        ...
                        {
                            "pos": 20,
                            "link": "/url?q=https://www.adidas.com/us/men-shoes&sa=U&ved=2ahUKEwiP4pv98dH3AhUY8rsIHTP1C64QqoUBegQIBRAB&usg=AOvVaw37cvHwAEOJFq55hDO1iXtw",
                            "image": "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTiprl_ce5WWZHyY3fFm2iXpOkhiy3EoOMv7UnuRoZ3zvYcpOS1MCKlzIFuSes&s",
                            "title": "Men's Shoes & Sneakers |...",
                            "domain": "www.adidas.com",
                            "pos_overall": 20
                        }
                    ],
                    "search_information": {
                        "query": "adidas",
                        "showing_results_for": "adidas"
                    },
                    "suggested_searches": [
                        "logo",
                        "shoes",
                        "wallpaper",
                        "superstar",
                        "yeezy",
                        "stan smith",
                        "ultra boost",
                        "nmd",
                        "eqt",
                        "tubular"
                    ]
                },
                "parse_status_code": 12000
            },
            "created_at": "2022-05-09 07:26:14",
            "updated_at": "2022-05-09 07:26:18",
            "page": 1,
            "url": "https://www.google.com/search?q=adidas&tbm=isch&gbv=1&uule=w+CAIQICINdW5pdGVkIHN0YXRlcw&gl=us&hl=en",
            "job_id": "6929330677540195329",
            "status_code": 200,
            "parser_type": "v2"
        }
    ]
}

我们仅解析用于 desktop 的图片搜索结果。

输出数据字典

HTML 示例

JSON 结构

Google 图片搜索的结构化输出包含诸如以下字段 URL, page, results等字段。下表列出我们解析的每个 SERP 功能的详细清单、其描述和数据类型。表中还包含一些元数据。

特定结果类型的项数和字段可能会根据搜索查询而有所不同。

键 (results.images)
说明
类型

url

Google 搜索页面的 URL。

字符串

results

包含搜索结果的字典。

数组

results.organic

包含各自详细信息的非付费结果列表。

数组

resaults.search_information

提交的搜索查询的详细信息清单。

对象

results.suggested_searches

显示在原始搜索查询正下方的一组建议搜索词列表。

数组

parse_status_code

解析任务的状态代码。您可以在此处查看解析器状态代码说明 此处.

整数

created_at

抓取任务创建的时间戳。

时间戳

updated_at

抓取任务完成的时间戳。

时间戳

page

相对于 Google SERP 分页的页码。

整数

job_id

与抓取任务关联的作业 ID。

字符串

status_code

抓取任务的状态代码。您可以在此处查看爬虫状态代码说明 此处.

整数

在下列部分,当某个结果类型有多于一项时,解析后的 JSON 代码片段将被简短化。

自然

图片搜索 organic 部分在 Google 图片搜索结果中显示非付费列表,按 Google 的算法按相关性组织。这些结果呈现给寻找视觉内容的用户,并显示在与其他搜索结果类型不同的专用部分中。

...
"organic": [
    {
        "pos": 1,
        "link": "/url?q=https://www.amazon.com/Ravensburger-Glitter-Unicorn-Together-Perfectly/dp/B08X4HRQQL&sa=U&ved=2ahUKEwi6suTk3_ODAxWNqZUCHToXDMkQqoUBegQICBAB&usg=AOvVaw0sGY22JL_Z1oVPkKfuOY-T",
        "image": "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcROtE0idmQWj_8Mt5JJoiLUFyJRSU7VANreAOFSijiLH9HsB4H3IWw8j_SxtA&s",
        "title": "Amazon.com: Ravensburger...",
        "domain": "www.amazon.com",
        "pos_overall": 1
    },
...
]
...
键 (results.organic)
说明
类型

pos

表示图像在列表中位置的唯一指示符。

字符串

link

图片所在页面的站点 URL。

数组

image

图片的 URL。

数组

title

图片所在文章的标题。

对象

domain

包含图片结果的站点域名。

数组

pos_overall

表示图像在列表中位置的唯一指示符。

整数

搜索信息

search information 是一个提供有关搜索查询详细信息的部分。它包括原始搜索词以及(如适用) Google 所做的任何自动更正信息。

...
"search_information": {
    "query": "unicorn",
    "showing_results_for": "unicorn"
},
...
键 (results.search_information)
说明
类型

query

原始搜索词。

字符串

showing_results_for

用于显示搜索结果的搜索词。 queryshowing_results_for 如果 Google 对提供的搜索词进行了自动更正,则可能会有所不同。

数组

建议搜索

suggested_searches (数组)在 Google 图片搜索中提供与原始查询相关的建议搜索词列表。用户可以探索这些附加搜索选项以细化或扩展他们的图片搜索。

...
"suggested_searches": [
    "cute",
    "rainbow",
    "drawing",
    "glitter",
    "wallpaper",
    "galaxy",
    "kawaii",
    "easy",
    "clipart",
    "transparent"
]
...

最后更新于

这有帮助吗?