python的ORC库
Python的OCR(Optical Character Recognition,光学字符辨认)库可帮助您辨认图片中的文本。OCR是一种在图象中自动检测和辨认文本的技术。 Python有多个OCR包和库,其中比较流行的是Tesseract和OCRopus。不过,这篇文章我们主要介绍Python的第三方OCR库:pytesseract。
pytesseract是Python封装的Tesseract OCR引擎。Tesseract是一个由谷歌提供的开源OCR引擎,能够在图象中辨认文本。Pytesseract使得在Python中使用Tesseract OCR非常容易。它可以适用于多种操作系统,包括Windows,Linux和Mac OS X,而且与Python3兼容。
# 安装pytesseract库 pip install pytesseract # 安装Tesseract OCR引擎(在Windows上) # 下载链接:https://github.com/UB-Mannheim/tesseract/wiki # 将下载后的程序加入环境变量PATH中
下面是一个简单的例子,用pytesseract在Python中从图象中辨认文本。
# 导入pytesseract模块和PIL模块 import pytesseract from PIL import Image # 打开图象 img = Image.open('test.png') # OCR text = pytesseract.image_to_string(img) # 打印结果 print(text)
在上面的例子中,我们使用了PIL模块打开图象(test.png),再用pytesseract辨认文本。image_to_string()函数返回辨认的文本。输出结果将在控制台上显示。
总之,Pytesseract是Python封装的Tesseract OCR引擎,它可以轻松地在Python中使用Tesseract OCR。该库可以运行在区别的操作系统上,并且非常易于使用。因此,如果您需要在Python利用程序中进行OCR辨认,请尝试使用pytesseract库。
文章来源:丸子建站
文章标题:python的ORC库
https://www.wanzijz.com/view/69788.html