在生活和工作的诸多场景中,我们常常通过拍摄照片来记录重要信息,如课堂笔记、会议记录、白板内容等。虽然图片能够带来直观的视觉效果且便于快速收集信息,但当需要对这些信息进行进一步处理、编辑或分析时,往往需要将图片中的文字内容转化为可编辑的文字格式。手动输入文字不仅耗时耗力,而且在面对大量文字时,效率极低,错误率也较高。
通用文字识别API应运而生,它能够自动提取并快速识别图像中的文字内容,支持多场景下的文字识别,极大地提升了信息处理的效率和准确性,为人们节省了大量宝贵的时间和精力。
自动识别图片中的文字信息,支持多种语言的识别,满足不同用户在不同场景下的需求,无论是处理外语资料还是多语言文档,都能轻松应对,有效提高业务效率。
电商、社交平台等网络平台可利用该API识别图像中的文字内容,从而过滤违规信息,如广告、敏感词、违禁品描述等,有效规避潜在风险,维护平台的健康生态环境。
在深度学习领域,该API可用于图像理解与分析等业务场景。通过对图像中文字的识别和解读,为模型训练提供丰富的文本数据支持,进一步提升模型对图像内容的理解和分析能力。
接口地址:https://api.tanshuapi.com/api/ocr_general/v1/index
请求参数说明:
名称 | 必填 | 类型 | 说明 |
---|---|---|---|
key | 是 | string | 个人中心查看 |
img | 是 | string | 图像数据,base64编码后post请求,要求base64编码后大小不超过1M,支持jpg/jpeg/png格式。 |
返回参数说明:
名称 | 类型 | 说明 |
---|---|---|
list | array | 识别文字 |
JSON返回示例
{
"code": 0,
"msg": "操作成功",
"data": {
"list": [
"课堂笔记:2025年4月17日",
"会议记录:项目进度讨论",
"白板内容:团队周计划安排"
]
}
}
Python代码示例:
import base64
import requests
import json
# 图像文件路径
image_path = "example.jpg"
# API密钥(需替换为您个人的API密钥)
api_key = "your_api_key_here"
# 读取图像文件并进行base64编码
with open(image_path, "rb") as image_file:
img_data = base64.b64encode(image_file.read()).decode("utf-8")
# 构建请求数据
request_data = {
"key": api_key,
"img": img_data
}
# API接口地址
api_url = "https://api.tanshuapi.com/api/ocr_general/v1/index"
# 发送POST请求
response = requests.post(api_url, json=request_data)
# 解析返回结果
result = response.json()
if result["code"] == 0:
recognized_text = result["data"]["list"]
print("识别成功,识别出的文字内容如下:")
for text in recognized_text:
print(text)
else:
print(f"识别失败,错误信息:{result['msg']}")
该API无论是个人用户还是企业机构,都能借助这一强大的工具,轻松实现图片文字的提取与转化,提升信息处理的效率和质量。