Python 获得pdf中的文字、图片文字方法

Python 获得pdf中的文字、图片文字方法

下载word版文件

OCR,全称Optical character recognition,中文译名叫做光学文字识别。它把图像中的字符,转换为机器编码的文本的一种方法。OCR技术在印刷行业应用得非常多,也广泛用于识别图片中的文字数据 – 比如护照,支票,银行声明,收据,统计表单,邮件等。

pytesseract,即Python-tesseract,是Google Tesseract ORC引擎的封装。首次于2014年提出,支持的图片格式有’JPEG’, ‘PNG’, ‘PBM’, ‘PGM’, ‘PPM’, ‘TIFF’, ‘BMP’, ‘GIF’,只需要简短的代码就能够提取图片中的字符合文字了,极大方便文字工作。

一、准备工作

1,安装pillow或者PIL,主要用来打开本地图片

pip install PIL

pip install pillow

2,安装pytesseract,主要用来将图片里面文字转化字符串或者pdf

pip install pytesseract

3,安装 Tesseract-OCR应用程序

进入https://pan.baidu.com/s/1qXumxdltxOnb0geaE_1U-Q​​

下载tesseract-ocr-w64-v5.0.0.exe

设置环境变量:新增系统变量TESSDATA_PREFIX

新增PATH路径:

配置就完成

测试是否安装成功

输入tesseract -v如果出现版本号则安装成功,如下图所示

进行识别

打开cmd->定位到所要识别的图片的位置

输入如下语句:tesseract pic3.png a [ -l chi_sim]

pic3.png是你图片的名称,a是保存文字的txt文件,后缀名可省略,默认的识别语言是英文,如果是中文要利用-l chi_sim换成中文

4,修改 pytesseract 源码中的路径

进入python目录\Lib\site-packages\pytesseract,用Notepad++打开pytesseract.py,将源码第26行的路径修改成安装Tesseract-OCR应用程序路径。

 tesseract_cmd = ‘tesseract.exe’

修改成

tesseract_cmd = r’C:\Program Files\Tesseract-OCR\tesseract.exe’

5,安装中文字库

进入https://pan.baidu.com/s/1GfspC5uef73B2Oa8YudBgQ,下载中文库复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中,

(实际上是chi_sim.traineddata最好在C:\Program Files \Tesseract-OCR目录下)

二、利用Python提取PDF文本的简单方法实例

一般情况下,Ctrl+C 是最简单的方法,当无法 Ctrl+C 时,我们借助于 Python,以下是具体步骤:

第一步,安装工具库

1、tika — 用于从各种文件格式中进行文档类型检测和内容提取

2、wand — 基于 ctypes 的简单 ImageMagick 绑定

3、pytesseract — OCR 识别工具

安装这些工具

1

2

3

pip install tika wand pytesseract

第二步,编写代码

假如 pdf 文件里面既有文字,又有图片,以下代码可以直接识别文字:

1

2

3

4

5

6

7

8

9

10

import io

import pytesseract

import sys

  

from PIL import Image

from tika import parser

from wand.image import Image as wi

  

text_raw = parser.from_file(“example.pdf”)

print(text_raw[‘content’].strip())

这还不够,我们还需要能失败图片的部分:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

def extract_text_image(from_file, lang=‘deu’, image_type=‘jpeg’, resolution=300):

    print(“– Parsing image”, from_file, “–“)

    print(“———————————“)

    pdf_file = wi(filename=from_file, resolution=resolution)

    image = pdf_file.convert(image_type)

    image_blobs = []

    for img in image.sequence:

        img_page = wi(image=img)

        image_blobs.append(img_page.make_blob(image_type))

    extract = []

    for img_blob in image_blobs:

        image = Image.open(io.BytesIO(img_blob))

        text = pytesseract.image_to_string(image, lang=lang)

        extract.append(text)

    for item in extract:

        for line in item.split(“\n”):

            print(line)

合并一下,完整代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

import io

import sys

  

from PIL import Image

import pytesseract

from wand.image import Image as wi

from tika import parser

  

def extract_text_image(from_file, lang=‘deu’, image_type=‘jpeg’, resolution=300):

    print(“– Parsing image”, from_file, “–“)

    print(“———————————“)

    pdf_file = wi(filename=from_file, resolution=resolution)

    image = pdf_file.convert(image_type)

    for img in image.sequence:

        img_page = wi(image=img)

        image = Image.open(io.BytesIO(img_page.make_blob(image_type)))

        text = pytesseract.image_to_string(image, lang=lang)

        for part in text.split(“\n”):

            print(“{}”.format(part))

  

def parse_text(from_file):

    print(“– Parsing text”, from_file, “–“)

    text_raw = parser.from_file(from_file)

    print(“———————————“)

    print(text_raw[‘content’].strip())

    print(“———————————“)

  

if __name__ == ‘__main__’:

    parse_text(sys.argv[1])

    extract_text_image(sys.argv[1], sys.argv[2])

这里,是将pdf全部转换成图片,再进行识别图片识别的,如果文档内容比较多,效率会比较慢。好处是识别的文本连续性比较好

image = pdf_file.convert(image_type)

可以逐页逐图进行识别

def extract_text(file_name):
   extract_text = ”  # 用于存储提取的文本
   doc = fitz.open(file_name)
   # 遍历每一页pdf
   print(‘pages:’,len(doc))
   for i in range(len(doc)):
      img_list = doc.get_page_images(i)  # 提取该页中的所有img
      # 遍历每页中的图片,
      for num, img in enumerate(img_list):
         img_name = f”d:/pdfall2txt/{ i + 1}{ num + 1}.png”  # 存储的图片名
         pix = fitz.Pixmap(doc, img[0])  # imagepixmap
         if pix.n – pix.alpha >= 4:  # 如果差值大于等于4,需要转化后才能保存为png
            pix = fitz.Pixmap(fitz.csRGB, pix)
         pix.save(img_name)  # 存储图片
         pix = None  # 释放Pixmap资源
         image = Image.open(img_name)
         text = pytesseract.image_to_string(image, ‘chi_sim’)  # 调用tesseract,使用中文库,要求库文件放在C:\Program Files (x86)\Tesseract-OCR目录想
         extract_text += text  # 写入文本
         os.remove(img_name)

     return extract_text

三、报错解决

1. convert: FailedToExecuteCommand `“gswin64c.exe”

参考:

Stackoverflow:Imagemagick FailedToExecuteCommand `“gswin32c.exe”

ImageMagick之PDF转换成图片(image)

报错信息中的gswin32c.exe指得就是Ghostscript(https://ghostscript.com/releases/gsdnld.html),下载这个东西,进行安装。

2、pytesseract错误

下载安装tesseract-ocr-w64-v5.0.0.exe

import pytesseract

from PIL import Image

from urllib import request

import time

pytesseract.pytesseract.tesseract_cmd=r’C:\Program Files\Tesseract-OCR\tesseract.exe’

image=Image.open(‘img\pic3.png’)#所要识别的图片的位置

#默认是英文,中文的要将语言改成中文。

text=pytesseract.image_to_string(image,lang=’chi_sim’)

print(text)

四、相关文件下载地址

1、ImageMagick

ImageMagick不知道需不需安装,不过安装一下没问题

ImageMagick – Download

Version

Description

ImageMagick-7.1.0-51-Q16-HDRI-x64-dll.exe

https://imagemagick.org/archive/binaries/ImageMagick-7.1.0-51-Q16-HDRI-x64-dll.exe

2、下载语言包,

GitHub – tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

下载后,打开压缩文件,将文件复制到C:\Program Files (x86)\Tesseract-OCR\tessdata目录下(实际上可以放在C:\Program Files (x86)\Tesseract-OCR目录下)

3、下载gs1000w64.exe

Ghostscript : Downloads

4、下载tika-server.jar 

http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.24/tika-server-1.24.jar

5、下载tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe

6、下载tesseract-ocr-w64-v5.0.0.exe

进入https://pan.baidu.com/s/1qXumxdltxOnb0geaE_1U-Q​​

示例:

def extract_text(file_name):
   extract_text = ”  # 用于存储提取的文本
   doc = fitz.open(file_name)
   # 遍历每一页pdf
   print(‘pages:’,len(doc))
   for i in range(len(doc)):
      img_list = doc.get_page_images(i)  # 提取该页中的所有img
      # 遍历每页中的图片,
      for num, img in enumerate(img_list):
         img_name = f”d:/pdfall2txt/{ i + 1}{ num + 1}.png”  # 存储的图片名
         pix = fitz.Pixmap(doc, img[0])  # imagepixmap
         if pix.n – pix.alpha >= 4:  # 如果差值大于等于4,需要转化后才能保存为png
            pix = fitz.Pixmap(fitz.csRGB, pix)
         pix.save(img_name)  # 存储图片
         pix = None  # 释放Pixmap资源
         image = Image.open(img_name)
         text = pytesseract.image_to_string(image, ‘chi_sim’)  # 调用tesseract,使用中文库,要求库文件放在C:\Program Files (x86)\Tesseract-OCR目录想
         extract_text += text  # 写入文本
         os.remove(img_name)
   return extract_text

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年6月16日
下一篇 2023年6月16日

相关推荐