图片型PDF提取文字环境搭建

一、Python环境搭建

下载自己电脑所对应的Python软件

Download Python | Python.org

点击安装

勾选以下两项进行安装

1
2
3
Use admin privileges when installing py.exe #安装Python使用管理员权限
Add python.exe to PATH #环境变量

win+r输入“cmd”

检测python是否安装成功的版本

在控制台输入 python –version

1
python --version

检测pip是否安装成功

在控制台输入 pip –version

1
pip --version

步骤2:在命令提示符里输入pip list

安装加载进度条的包

1
pip install tqdm

安装包

在命令提示符里输入“pip install 包的名称”即可安装包

查看安装了哪些包

1
pip list

卸载包

在命令提示符里输入“pip uninstall 包的名称”即可卸载包

1
pip uninstall 包的名称
  1. 使用Python隔离环境venv
    建立venv的配置如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
python(3) -m venv {vitualenv_ name}
示例:随便选一个电脑磁盘新建一个python工作目录,在工作目录顶部地址栏输入CMD+回车,打开管理员控制台输入以下命令并回车建立独立的python隔离工作环境
python -m venv venv
关闭之前打开的CMD命令行界面窗口
在工作目录有venv的文件夹顶部地址栏输入CMD+回车,打开管理员控制台启用venv环境命令如下:
.\venv\Scripts\activate
然后随便pip install装包,装的包不好用或者带毒,可以删除venv整个隔离文件夹环境,再从新建立venv环境即可
结束venv环境命令,在venv的模式下输入以下命令:
deactivate

这样做的好处:当你以后不管pip install安装什么python包,都不会污染整个电脑的python环境
以下是macOS或Linux系统安装隔离环境的命令:
source . /venv/bin/activate # Bash/ZSH (macOS + most Linux distro)

. /venv/bin/activate # Windows

二、在 Windows 上安装ocrmypdf(主角)

本机 Windows

注意: 其中一些步骤将需要管理员权限。

对于 Windows,您必须安装以下软件:
Python 64 位

Tesseract 64 位

Ghostscript 64 位

1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车,打开管理员控制台启用venv环境命令如下:

1
.\venv\Scripts\activate

2.使用 winget 包管理器安装Tesseract 64 位:

1
winget install -e --id UB-Mannheim.TesseractOCR

3.您需要手动安装 Ghostscript,因为它不支持自动 安装。
Ghostscript 下载页面

点击下载好的gs10051w64.exe以管理员的身份进行安装

4.如果您使用 WinGet 安装了 Python和TesseractOCR,请改用以下命令安装ocrmypdf:

1
py -m pip install ocrmypdf

三、在Python隔离环境的venv中使用OCRMYPDF方法

1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车,打开管理员控制台启用venv环境命令如下:

1
.\venv\Scripts\activate

2.查看OCRMYPDF 内置帮助。

1
ocrmypdf --help

3.复制需要转换的图片类型的PDF文件到venv所在的文件夹内

例如:本人需要转换图片类型的PDF文件名叫《需转换.pdf》

4.添加 OCR 图层并转换为 PDF/A

1
ocrmypdf 需转换.pdf 已转换.pdf

5.生成包含 OCR 文本的 PDF 和文本文件
这将生成一个名为 “output.pdf” 的文件和一个配套文本文件 命名为 “output.txt”。

弊端:已转换为.txt会乱码

1
ocrmypdf --sidecar 已转换为.txt 需转换.pdf 已转换为可复制和编辑的.pdf

6.解决已转换为.txt会乱码的问题
下载TesseractOCR的语言和 脚本模型
脚本模型
说明:
对于 Tesseract 4,包括 以下语言:tessdata_fast

afr (南非荷兰语), amh (阿姆哈拉语), ara (阿拉伯语), asm (阿萨姆语), aze (阿塞拜疆语), aze_cyrl (阿塞拜疆语 - 西里尔语), bel (白俄罗斯语), ben (孟加拉语), bod (藏语), bos (波斯尼亚语), bre (布列塔尼语), bul (保加利亚语), cat (加泰罗尼亚语;巴伦西亚语), ceb (宿务语), ces (捷克语), chi_sim (简体中文), chi_tra (繁体中文), chr (切罗基语), cos (科西嘉语), cym (威尔士语), dan (丹麦语), deu (德语), deu_latf (德语 Fraktur 拉丁语), div (迪维希语), dzo (宗卡), ell (希腊语, 现代, 1453-), eng (英语), enm(英语,中古语,1100-1500 年),epo(世界语),equ(数学/方程式检测模块),est(爱沙尼亚语),eus(巴斯克语),fas(波斯语),fao(法罗语),fil(菲律宾语),fin(芬兰语),fra(法语),frm(法语,中古语,约 1400-1600 年),fry(西弗里斯兰语),gla(苏格兰盖尔语),gle(爱尔兰语),glg(加利西亚语), grc(希腊语,古代,至 1453 年)、guj(古吉拉特语)、hat(海地语;海地克里奥尔语)、heb(希伯来语)、hin(印地语)、hrv(克罗地亚语)、hun(匈牙利语)、hye(亚美尼亚语)、iku(因纽特语)、ind(印度尼西亚语)、isl(冰岛)、ita(意大利语)、ita_old(意大利语 - 旧)、jav(爪哇语)、jpn(日语)、kan(卡纳达语)、kat(格鲁吉亚语)、kat_old(格鲁吉亚语 - 旧)、kaz (哈萨克语)、khm(中高棉语)、kir(吉尔吉斯语;吉尔吉斯语)、kmr(库尔德语 Kurmanji)、kor(韩语)、kor_vert(韩语垂直)、lao(老挝语)、lat(拉丁语)、lav(拉脱维亚语)、lit(立陶宛语)、ltz(卢森堡语)、mal(马拉雅拉姆语)、mar(马拉地语)、mkd(马其顿语)、mlt(马耳他语)、mon(蒙古语)、mri(毛利语)、msa(马来语)、mya(缅甸语)、nep (尼泊尔语), nld (荷兰语;佛兰芒语)、nor(挪威语)、oci(奥克西坦语 1500 年后)、ori(奥里雅语)、osd(方向和脚本检测模块)、pan(旁遮普语;旁遮普语)、pol (波兰语)、por (葡萄牙语)、pus (普什图语;普什图语)、que (克丘亚语)、ron (罗马尼亚语;摩尔达维亚语;摩尔多瓦语)、rus (俄语)、san (梵语)、sin (僧伽罗语;僧伽罗语)、slk(斯洛伐克语)、slv(斯洛文尼亚语)、snd(信德语)、spa(西班牙语;卡斯蒂利亚语)、spa_old(西班牙语;卡斯蒂利亚语 - 古)、sqi(阿尔巴尼亚语)、srp(塞尔维亚语)、srp_latn(塞尔维亚语 - 拉丁语)、sun(巽他语)、swa(斯瓦希里语)、swe(瑞典语)、syr(叙利亚语)、tam(泰米尔语)、tat(鞑靼语)、tel(泰卢固语)、tgk(塔吉克语)、tha(泰语)、tir(提格里尼亚语)、ton(汤加)、tur(土耳其语)、uig(维吾尔语;维吾尔语)、ukr(乌克兰语)、urd(乌尔都语)、uzb(乌兹别克语)、uzb_cyrl语(乌兹别克语 - 西里尔语)、vie(越南语)、yid(意第绪语)、yor(约鲁巴语)

将下载的压缩包进行解压,复制chi_sim开头的中文简体语言脚本模型放入类似于C:\Program Files\Tesseract-OCR\tessdata这样的文件夹内

7.现在愉快的把图片类PDF转换为TXT文件和普通PDF文件

1
2
ocrmypdf -l chi_sim --sidecar 已转换为.txt 需转换.pdf 已转换为可复制和编辑的.pdf

备注:当PDF文件名有乱七八糟的各种符合时,需要更改PDF文件名,再进行转换

8.测试参数 –skip-text (慢)

1
ocrmypdf --skip-text 可编辑的.pdf 变成可编辑的_OCR.pdf

如果要把可编辑的PDF文件转换成TXT文件,会报如下错误:
页面已包含文本!- 中止(使用 –force-ocr 强制 OCR;另请参阅参数 –skip-text 和 –redo-ocr 的帮助

9.测试参数 –redo-ocr

1
ocrmypdf --redo-ocr 可编辑的.pdf 变成可编辑的_OCR.pdf


欢迎光临本站!


本站主要记录一些个人所学的内容。



图片型PDF提取文字环境搭建
http://example.com/page/2025/06/23/21/11.html
作者
dzq88
发布于
2025年6月23日
许可协议