图像识别如何调用API

图像识别如何调用 API

你在做一款小程序，想让应用能“看懂”照片里的内容？比如上传一张猫的图片，系统自动识别出是“猫咪”；或者拍个发票，程序能提取文字信息。这些功能背后，其实都离不开图像识别API。调用它并不复杂，关键在于理清步骤。

选对平台是第一步

市面上主流的图像识别API不少，比如百度AI开放平台、阿里云视觉智能、腾讯云OCR、Google Cloud Vision等。每个平台提供的能力略有不同，有的擅长人脸识别，有的专注文字提取（OCR），还有的能识别动植物或通用物体。先明确你的需求，再去注册对应平台的账号，申请API密钥。

以百度AI为例，登录后进入“图像识别”服务页面，创建应用就能拿到三个关键参数：API Key、Secret Key 和 Access Token 获取地址。这些是你后续调用接口的“通行证”。

获取Access Token

大多数API不是直接用API Key调用，而是先换一个临时的Access Token。这个Token有有效期，通常是30天内有效，安全性更高。

拿百度AI来说，你需要先发一个POST请求去获取Token：

https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【你的API Key】&client_secret=【你的Secret Key】

返回结果里会包含access_token字段，复制下来备用。

调用图像识别接口

拿到Token后，就可以正式调用图像识别接口了。比如你想识别一张图片里的物体，使用百度的通用物体识别接口：

https://aip.baidubce.com/rest/2.0/image-classify/v2/detect?access_token=【你刚刚获取的Token】

请求方式是POST，图片数据通常以base64编码的形式传入。你可以先读取本地图片文件，转成base64字符串。

下面是一个Python示例：

import requests
import base64

# 图片转base64
with open('cat.jpg', 'rb') as f:
    img_data = base64.b64encode(f.read()).decode('utf-8')

# 请求参数
payload = {
    'image': img_data,
    'max_results': 5
}

# 请求头
headers = {
    'Content-Type': 'application/x-www-form-urlencoded'
}

# 发起请求
response = requests.post(
    'https://aip.baidubce.com/rest/2.0/image-classify/v2/detect?access_token=【你的Token】',
    data=payload,
    headers=headers
)

print(response.json())

执行后，你会收到类似这样的返回：

{
  "result": [
    {"name": "波斯猫", "score": 0.985},
    {"name": "猫咪", "score": 0.972}
  ]
}

看到“波斯猫”和高置信度得分，说明识别成功了。

处理返回结果

API返回的数据一般是JSON格式，包含识别出的类别、置信度、位置坐标（如果是检测类接口）等信息。你可以在前端展示，也可以存进数据库做进一步分析。比如做一个宠物相册，自动给照片打标签，就是这么实现的。

常见问题注意点

图片太大可能超限，多数API要求base64编码后不超过4MB，建议提前压缩。网络请求别忘了加超时机制，避免卡住整个程序。另外，免费额度有限，上线前要评估调用量，避免突然收费。

有些场景下，你可能不想走服务器中转。比如在网页端直接上传识别，可以考虑使用前端+后端配合的方式：前端把图片传给自己的服务器，由服务器调用API，再把结果返回前端。这样能保护你的API密钥不被泄露。