pdf转txt,7行代码全搞定。使用pdfplumber库文件实现pdf文件转txt文件。2021年习近平主席新年贺词

pdfplumber使用介绍
为什么要用pdfplumber
下载论文资料,看分析报告,这些工作学习中常有的事儿,往往会遇到一个现实的问题,就是如何把pdf文件中的内容给转换可编辑的文档。虽然付费的工具软件很多,但是作为一个加班都没有加班费的人儿,明显是条件不够啊。
小编经过一通搜罗,发现一个宝藏Python库,就是今天的主角儿-pdfplumber。pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。
安装pdfplumber
按照惯例,先讲一下,如何安装,其实还挺简单的
pip install pdfplumber
当然,极有可能会报什么网络错误,不要慌,你还可以通过百度云盘下载离线安装包。下载解压后,进入目录,找到setup.py文件,使用Python命令安装,离线安装方便又快捷。
python setup.py install
百度网盘链接: https://pan.baidu.com/s/1dINp6NDZBlBeFaufWN8sNA
提取码: wnyc
pdf转txt
干货来了,不得不说,Python是真的强大,这么复杂的事儿居然7行代码就搞定了,就长这个样子。
import pdfplumber import codecs with pdfplumber.open("习近平主席发表二〇二一年新年贺词.pdf") as pdf: for page in pdf.pages: f1=codecs.open('习近平主席发表二〇二一年新年贺词.txt','a','utf-8') f1.write(page.extract_text()) f1.close()
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论