首页 Python正文

pdf转txt,7行代码全搞定。使用pdfplumber库文件实现pdf文件转txt文件。2021年习近平主席新年贺词

sanrenxing Python 2021-11-11 2612 0 | 文章出自:https://mp.weixin.qq.com/s?__biz=MzI5OTAwNjMzMg==&mid=2694958523&idx=1&sn=66dc7451b85bee210437be792f60add3&chksm=c9c84da8febfc4be7cc3215bc294890d0265fe07545a7bce2f558d9be8b4215299b9bfb3dbfe&token=1513780785&lang=zh_CN#rd pdf转txtplumberpython


pdfplumber使用介绍

为什么要用pdfplumber


    下载论文资料,看分析报告,这些工作学习中常有的事儿,往往会遇到一个现实的问题,就是如何把pdf文件中的内容给转换可编辑的文档。虽然付费的工具软件很多,但是作为一个加班都没有加班费的人儿,明显是条件不够啊。

    小编经过一通搜罗,发现一个宝藏Python库,就是今天的主角儿-pdfplumber。pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。

安装pdfplumber


    按照惯例,先讲一下,如何安装,其实还挺简单的

pip install pdfplumber

    当然,极有可能会报什么网络错误,不要慌,你还可以通过百度云盘下载离线安装包。下载解压后,进入目录,找到setup.py文件,使用Python命令安装,离线安装方便又快捷。

python setup.py install

百度网盘链接: https://pan.baidu.com/s/1dINp6NDZBlBeFaufWN8sNA 

提取码: wnyc

pdf转txt

    干货来了,不得不说,Python是真的强大,这么复杂的事儿居然7行代码就搞定了,就长这个样子。

import pdfplumber
import codecs
with pdfplumber.open("习近平主席发表二〇二一年新年贺词.pdf") as pdf:
    for page in pdf.pages:
        f1=codecs.open('习近平主席发表二〇二一年新年贺词.txt','a','utf-8')
        f1.write(page.extract_text())
        f1.close()

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论