图片型PDF提取文字环境搭建
一、Python环境搭建
下载自己电脑所对应的Python软件
点击安装
勾选以下两项进行安装
1 |
|
win+r输入“cmd”
检测python是否安装成功的版本
在控制台输入 python –version
1 |
|
检测pip是否安装成功
在控制台输入 pip –version
1 |
|
步骤2:在命令提示符里输入pip list
安装加载进度条的包
1 |
|
安装包
在命令提示符里输入“pip install 包的名称”即可安装包
查看安装了哪些包
1 |
|
卸载包
在命令提示符里输入“pip uninstall 包的名称”即可卸载包
1 |
|
- 使用Python隔离环境venv
建立venv的配置如下:
1 |
|
二、在 Windows 上安装ocrmypdf(主角)
本机 Windows
注意: 其中一些步骤将需要管理员权限。
对于 Windows,您必须安装以下软件:
Python 64 位
Tesseract 64 位
Ghostscript 64 位
1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车,打开管理员控制台启用venv环境命令如下:
1 |
|
2.使用 winget 包管理器安装Tesseract 64 位:
1 |
|
3.您需要手动安装 Ghostscript,因为它不支持自动 安装。
Ghostscript 下载页面
点击下载好的gs10051w64.exe以管理员的身份进行安装
4.如果您使用 WinGet 安装了 Python和TesseractOCR,请改用以下命令安装ocrmypdf:
1 |
|
三、在Python隔离环境的venv中使用OCRMYPDF方法
1.在Python隔离环境的venv目录顶部地址栏输入CMD+回车,打开管理员控制台启用venv环境命令如下:
1 |
|
2.查看OCRMYPDF 内置帮助。
1 |
|
3.复制需要转换的图片类型的PDF文件到venv所在的文件夹内
例如:本人需要转换图片类型的PDF文件名叫《需转换.pdf》
4.添加 OCR 图层并转换为 PDF/A
1 |
|
5.生成包含 OCR 文本的 PDF 和文本文件
这将生成一个名为 “output.pdf” 的文件和一个配套文本文件 命名为 “output.txt”。
弊端:已转换为.txt会乱码
1 |
|
6.解决已转换为.txt会乱码的问题
下载TesseractOCR的语言和 脚本模型
脚本模型
说明:
对于 Tesseract 4,包括 以下语言:tessdata_fast
afr (南非荷兰语), amh (阿姆哈拉语), ara (阿拉伯语), asm (阿萨姆语), aze (阿塞拜疆语), aze_cyrl (阿塞拜疆语 - 西里尔语), bel (白俄罗斯语), ben (孟加拉语), bod (藏语), bos (波斯尼亚语), bre (布列塔尼语), bul (保加利亚语), cat (加泰罗尼亚语;巴伦西亚语), ceb (宿务语), ces (捷克语), chi_sim (简体中文), chi_tra (繁体中文), chr (切罗基语), cos (科西嘉语), cym (威尔士语), dan (丹麦语), deu (德语), deu_latf (德语 Fraktur 拉丁语), div (迪维希语), dzo (宗卡), ell (希腊语, 现代, 1453-), eng (英语), enm(英语,中古语,1100-1500 年),epo(世界语),equ(数学/方程式检测模块),est(爱沙尼亚语),eus(巴斯克语),fas(波斯语),fao(法罗语),fil(菲律宾语),fin(芬兰语),fra(法语),frm(法语,中古语,约 1400-1600 年),fry(西弗里斯兰语),gla(苏格兰盖尔语),gle(爱尔兰语),glg(加利西亚语), grc(希腊语,古代,至 1453 年)、guj(古吉拉特语)、hat(海地语;海地克里奥尔语)、heb(希伯来语)、hin(印地语)、hrv(克罗地亚语)、hun(匈牙利语)、hye(亚美尼亚语)、iku(因纽特语)、ind(印度尼西亚语)、isl(冰岛)、ita(意大利语)、ita_old(意大利语 - 旧)、jav(爪哇语)、jpn(日语)、kan(卡纳达语)、kat(格鲁吉亚语)、kat_old(格鲁吉亚语 - 旧)、kaz (哈萨克语)、khm(中高棉语)、kir(吉尔吉斯语;吉尔吉斯语)、kmr(库尔德语 Kurmanji)、kor(韩语)、kor_vert(韩语垂直)、lao(老挝语)、lat(拉丁语)、lav(拉脱维亚语)、lit(立陶宛语)、ltz(卢森堡语)、mal(马拉雅拉姆语)、mar(马拉地语)、mkd(马其顿语)、mlt(马耳他语)、mon(蒙古语)、mri(毛利语)、msa(马来语)、mya(缅甸语)、nep (尼泊尔语), nld (荷兰语;佛兰芒语)、nor(挪威语)、oci(奥克西坦语 1500 年后)、ori(奥里雅语)、osd(方向和脚本检测模块)、pan(旁遮普语;旁遮普语)、pol (波兰语)、por (葡萄牙语)、pus (普什图语;普什图语)、que (克丘亚语)、ron (罗马尼亚语;摩尔达维亚语;摩尔多瓦语)、rus (俄语)、san (梵语)、sin (僧伽罗语;僧伽罗语)、slk(斯洛伐克语)、slv(斯洛文尼亚语)、snd(信德语)、spa(西班牙语;卡斯蒂利亚语)、spa_old(西班牙语;卡斯蒂利亚语 - 古)、sqi(阿尔巴尼亚语)、srp(塞尔维亚语)、srp_latn(塞尔维亚语 - 拉丁语)、sun(巽他语)、swa(斯瓦希里语)、swe(瑞典语)、syr(叙利亚语)、tam(泰米尔语)、tat(鞑靼语)、tel(泰卢固语)、tgk(塔吉克语)、tha(泰语)、tir(提格里尼亚语)、ton(汤加)、tur(土耳其语)、uig(维吾尔语;维吾尔语)、ukr(乌克兰语)、urd(乌尔都语)、uzb(乌兹别克语)、uzb_cyrl语(乌兹别克语 - 西里尔语)、vie(越南语)、yid(意第绪语)、yor(约鲁巴语)
将下载的压缩包进行解压,复制chi_sim开头的中文简体语言脚本模型放入类似于C:\Program Files\Tesseract-OCR\tessdata这样的文件夹内
7.现在愉快的把图片类PDF转换为TXT文件和普通PDF文件
1 |
|
备注:当PDF文件名有乱七八糟的各种符合时,需要更改PDF文件名,再进行转换
8.测试参数 –skip-text (慢)
1 |
|
如果要把可编辑的PDF文件转换成TXT文件,会报如下错误:
页面已包含文本!- 中止(使用 –force-ocr 强制 OCR;另请参阅参数 –skip-text 和 –redo-ocr 的帮助
9.测试参数 –redo-ocr
1
ocrmypdf --redo-ocr 可编辑的.pdf 变成可编辑的_OCR.pdf
欢迎光临本站!
本站主要记录一些个人所学的内容。