用通用文字识别API实现文字“翩然”于纸上

来源: 探数数据类型: 行业资讯发布: 2025-04-19 13:33:23

一、引言

在生活和工作的诸多场景中，我们常常通过拍摄照片来记录重要信息，如课堂笔记、会议记录、白板内容等。虽然图片能够带来直观的视觉效果且便于快速收集信息，但当需要对这些信息进行进一步处理、编辑或分析时，往往需要将图片中的文字内容转化为可编辑的文字格式。手动输入文字不仅耗时耗力，而且在面对大量文字时，效率极低，错误率也较高。
通用文字识别API应运而生，它能够自动提取并快速识别图像中的文字内容，支持多场景下的文字识别，极大地提升了信息处理的效率和准确性，为人们节省了大量宝贵的时间和精力。

二、应用场景

1.文字提取与多语种识别

自动识别图片中的文字信息，支持多种语言的识别，满足不同用户在不同场景下的需求，无论是处理外语资料还是多语言文档，都能轻松应对，有效提高业务效率。

2.内容审核与风险规避

电商、社交平台等网络平台可利用该API识别图像中的文字内容，从而过滤违规信息，如广告、敏感词、违禁品描述等，有效规避潜在风险，维护平台的健康生态环境。

3.助力深度学习与图像理解

在深度学习领域，该API可用于图像理解与分析等业务场景。通过对图像中文字的识别和解读，为模型训练提供丰富的文本数据支持，进一步提升模型对图像内容的理解和分析能力。

三、代码示例

接口地址：https://api.tanshuapi.com/api/ocr_general/v1/index
请求参数说明:

名称	必填	类型	说明
key	是	string	个人中心查看
img	是	string	图像数据，base64编码后post请求，要求base64编码后大小不超过1M,支持jpg/jpeg/png格式。

返回参数说明:

名称	类型	说明
list	array	识别文字

JSON返回示例

{
  "code": 0,
  "msg": "操作成功",
  "data": {
    "list": [
      "课堂笔记：2025年4月17日",
      "会议记录：项目进度讨论",
      "白板内容：团队周计划安排"
    ]
  }
}

Python代码示例：

import base64
import requests
import json

# 图像文件路径
image_path = "example.jpg"

# API密钥（需替换为您个人的API密钥）
api_key = "your_api_key_here"

# 读取图像文件并进行base64编码
with open(image_path, "rb") as image_file:
    img_data = base64.b64encode(image_file.read()).decode("utf-8")

# 构建请求数据
request_data = {
    "key": api_key,
    "img": img_data
}

# API接口地址
api_url = "https://api.tanshuapi.com/api/ocr_general/v1/index"

# 发送POST请求
response = requests.post(api_url, json=request_data)

# 解析返回结果
result = response.json()
if result["code"] == 0:
    recognized_text = result["data"]["list"]
    print("识别成功，识别出的文字内容如下：")
    for text in recognized_text:
        print(text)
else:
    print(f"识别失败，错误信息：{result['msg']}")