图片型PDF提取文字环境搭建

一、Python环境搭建

下载自己电脑所对应的Python软件

点击安装

勾选以下两项进行安装

1
2
3

Use admin privileges when installing py.exe #安装Python使用管理员权限
Add python.exe to PATH #环境变量

win+r输入“cmd”

检测python是否安装成功的版本

在控制台输入 python –version

1	`python --version`

检测pip是否安装成功

在控制台输入 pip –version

1	`pip --version`

步骤2：在命令提示符里输入pip list

安装加载进度条的包

1	`pip install tqdm`

安装包

在命令提示符里输入“pip install 包的名称”即可安装包

查看安装了哪些包

1	`pip list`

卸载包

在命令提示符里输入“pip uninstall 包的名称”即可卸载包

1	`pip uninstall 包的名称`

使用Python隔离环境venv
建立venv的配置如下：

python(3) -m venv {vitualenv_ name}
示例：随便选一个电脑磁盘新建一个python工作目录，在工作目录顶部地址栏输入CMD+回车，打开管理员控制台输入以下命令并回车建立独立的python隔离工作环境
python -m venv venv
关闭之前打开的CMD命令行界面窗口
在工作目录有venv的文件夹顶部地址栏输入CMD+回车，打开管理员控制台启用venv环境命令如下：
.\venv\Scripts\activate
然后随便pip install装包，装的包不好用或者带毒，可以删除venv整个隔离文件夹环境,再从新建立venv环境即可
结束venv环境命令,在venv的模式下输入以下命令：
deactivate

这样做的好处：当你以后不管pip install安装什么python包，都不会污染整个电脑的python环境
以下是macOS或Linux系统安装隔离环境的命令：
source . /venv/bin/activate # Bash/ZSH (macOS + most Linux distro)

. /venv/bin/activate # Windows

二、在 Windows 上安装ocrmypdf（主角）

本机 Windows

注意: 其中一些步骤将需要管理员权限。

对于 Windows，您必须安装以下软件：
Python 64 位

Tesseract 64 位

Ghostscript 64 位

1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车，打开管理员控制台启用venv环境命令如下：

1	`.\venv\Scripts\activate`

2.使用 winget 包管理器安装Tesseract 64 位：

1	`winget install -e --id UB-Mannheim.TesseractOCR`

3.您需要手动安装 Ghostscript，因为它不支持自动安装。
Ghostscript 下载页面

点击下载好的gs10051w64.exe以管理员的身份进行安装

4.如果您使用 WinGet 安装了 Python和TesseractOCR，请改用以下命令安装ocrmypdf：

1	`py -m pip install ocrmypdf`

三、在Python隔离环境的venv中使用OCRMYPDF方法

1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车，打开管理员控制台启用venv环境命令如下：

1	`.\venv\Scripts\activate`

2.查看OCRMYPDF 内置帮助。

1	`ocrmypdf --help`

3.复制需要转换的图片类型的PDF文件到venv所在的文件夹内

例如：本人需要转换图片类型的PDF文件名叫《需转换.pdf》

4.添加 OCR 图层并转换为 PDF/A

1	`ocrmypdf 需转换.pdf 已转换.pdf`

5.生成包含 OCR 文本的 PDF 和文本文件
这将生成一个名为 “output.pdf” 的文件和一个配套文本文件命名为 “output.txt”。

弊端：已转换为.txt会乱码

1	`ocrmypdf --sidecar 已转换为.txt 需转换.pdf 已转换为可复制和编辑的.pdf`

6.解决已转换为.txt会乱码的问题
下载TesseractOCR的语言和脚本模型
脚本模型
说明：
对于 Tesseract 4，包括以下语言：tessdata_fast

afr （南非荷兰语）， amh （阿姆哈拉语）， ara （阿拉伯语）， asm （阿萨姆语）， aze （阿塞拜疆语）， aze_cyrl （阿塞拜疆语 - 西里尔语）， bel （白俄罗斯语）， ben （孟加拉语）， bod （藏语）， bos （波斯尼亚语）， bre （布列塔尼语）， bul （保加利亚语）， cat （加泰罗尼亚语;巴伦西亚语）， ceb （宿务语）， ces （捷克语）， chi_sim （简体中文）， chi_tra （繁体中文）， chr （切罗基语）， cos （科西嘉语）， cym （威尔士语）， dan （丹麦语）， deu （德语）， deu_latf （德语 Fraktur 拉丁语）， div （迪维希语）， dzo （宗卡）， ell （希腊语，现代， 1453-）， eng （英语）， enm（英语，中古语，1100-1500 年），epo（世界语），equ（数学/方程式检测模块），est（爱沙尼亚语），eus（巴斯克语），fas（波斯语），fao（法罗语），fil（菲律宾语），fin（芬兰语），fra（法语），frm（法语，中古语，约 1400-1600 年），fry（西弗里斯兰语），gla（苏格兰盖尔语），gle（爱尔兰语），glg（加利西亚语）， grc（希腊语，古代，至 1453 年）、guj（古吉拉特语）、hat（海地语;海地克里奥尔语）、heb（希伯来语）、hin（印地语）、hrv（克罗地亚语）、hun（匈牙利语）、hye（亚美尼亚语）、iku（因纽特语）、ind（印度尼西亚语）、isl（冰岛）、ita（意大利语）、ita_old（意大利语 - 旧）、jav（爪哇语）、jpn（日语）、kan（卡纳达语）、kat（格鲁吉亚语）、kat_old（格鲁吉亚语 - 旧）、kaz （哈萨克语）、khm（中高棉语）、kir（吉尔吉斯语;吉尔吉斯语）、kmr（库尔德语 Kurmanji）、kor（韩语）、kor_vert（韩语垂直）、lao（老挝语）、lat（拉丁语）、lav（拉脱维亚语）、lit（立陶宛语）、ltz（卢森堡语）、mal（马拉雅拉姆语）、mar（马拉地语）、mkd（马其顿语）、mlt（马耳他语）、mon（蒙古语）、mri（毛利语）、msa（马来语）、mya（缅甸语）、nep （尼泊尔语）， nld （荷兰语;佛兰芒语）、nor（挪威语）、oci（奥克西坦语 1500 年后）、ori（奥里雅语）、osd（方向和脚本检测模块）、pan（旁遮普语;旁遮普语）、pol （波兰语）、por （葡萄牙语）、pus （普什图语;普什图语）、que （克丘亚语）、ron （罗马尼亚语;摩尔达维亚语;摩尔多瓦语）、rus （俄语）、san （梵语）、sin （僧伽罗语;僧伽罗语）、slk（斯洛伐克语）、slv（斯洛文尼亚语）、snd（信德语）、spa（西班牙语;卡斯蒂利亚语）、spa_old（西班牙语;卡斯蒂利亚语 - 古）、sqi（阿尔巴尼亚语）、srp（塞尔维亚语）、srp_latn（塞尔维亚语 - 拉丁语）、sun（巽他语）、swa（斯瓦希里语）、swe（瑞典语）、syr（叙利亚语）、tam（泰米尔语）、tat（鞑靼语）、tel（泰卢固语）、tgk（塔吉克语）、tha（泰语）、tir（提格里尼亚语）、ton（汤加）、tur（土耳其语）、uig（维吾尔语;维吾尔语）、ukr（乌克兰语）、urd（乌尔都语）、uzb（乌兹别克语）、uzb_cyrl语（乌兹别克语 - 西里尔语）、vie（越南语）、yid（意第绪语）、yor（约鲁巴语）

将下载的压缩包进行解压，复制chi_sim开头的中文简体语言脚本模型放入类似于C:\Program Files\Tesseract-OCR\tessdata这样的文件夹内

7.现在愉快的把图片类PDF转换为TXT文件和普通PDF文件

1 2	`ocrmypdf -l chi_sim --sidecar 已转换为.txt 需转换.pdf 已转换为可复制和编辑的.pdf`

备注：当PDF文件名有乱七八糟的各种符合时，需要更改PDF文件名，再进行转换

8.测试参数 –skip-text （慢）

1	`ocrmypdf --skip-text 可编辑的.pdf 变成可编辑的_OCR.pdf`

如果要把可编辑的PDF文件转换成TXT文件，会报如下错误：
页面已包含文本！- 中止（使用 –force-ocr 强制 OCR;另请参阅参数 –skip-text 和 –redo-ocr 的帮助

9.测试参数 –redo-ocr

1	`ocrmypdf --redo-ocr 可编辑的.pdf 变成可编辑的_OCR.pdf`

欢迎光临本站！

本站主要记录一些个人所学的内容。

PDF

#PDF

图片型PDF提取文字环境搭建

http://example.com/page/2025/06/23/21/11.html

作者

dzq88

发布于

2025年6月23日

许可协议

浏览中文独立个人博客有感上一篇

一瓶珠江啤酒差点引发一场血案下一篇