Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python批量导出导入MySQL用户的方法
Nov 15 Python
讲解Python中fileno()方法的使用
May 24 Python
python爬虫爬取淘宝商品信息
Feb 23 Python
TensorFlow实现AutoEncoder自编码器
Mar 09 Python
Python实现iOS自动化打包详解步骤
Oct 03 Python
浅谈Python反射 & 单例模式
Mar 21 Python
Python django搭建layui提交表单,表格,图标的实例
Nov 18 Python
Python 格式化打印json数据方法(展开状态)
Feb 27 Python
全网首秀之Pycharm十大实用技巧(推荐)
Apr 27 Python
Python如何急速下载第三方库详解
Nov 02 Python
Python使用Kubernetes API访问集群
May 30 Python
Python中的嵌套循环详情
Mar 23 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
打造计数器DIY三步曲(上)
2006/10/09 PHP
Yii使用Captcha验证码的方法
2015/12/28 PHP
PHP编程之设置apache虚拟目录
2016/07/08 PHP
PHP simplexml_load_string()函数实例讲解
2019/02/03 PHP
jQuery 数据缓存模块进化史详细介绍
2012/11/19 Javascript
Dom 学习总结以及实例的使用介绍
2013/04/24 Javascript
借助javascript代码判断网页是静态还是伪静态
2014/05/05 Javascript
javascript cookie的简单应用
2016/02/24 Javascript
js倒计时显示实例
2016/12/11 Javascript
vue.js实现仿原生ios时间选择组件实例代码
2016/12/21 Javascript
基于jquery实现多选下拉列表
2017/08/02 jQuery
node.js操作MongoDB的实例详解
2017/10/11 Javascript
nodejs使用http模块发送get与post请求的方法示例
2018/01/08 NodeJs
spirngmvc js传递复杂json参数到controller的实例
2018/03/29 Javascript
electron中使用bootstrap的示例代码
2018/11/06 Javascript
Python中使用urllib2模块编写爬虫的简单上手示例
2016/01/20 Python
Python通过命令开启http.server服务器的方法
2017/11/04 Python
pytorch + visdom CNN处理自建图片数据集的方法
2018/06/04 Python
Python绘制的二项分布概率图示例
2018/08/22 Python
python用WxPython库实现无边框窗体和透明窗体实现方法详解
2020/02/21 Python
pytorch判断是否cuda 判断变量类型方式
2020/06/23 Python
Python把图片转化为pdf代码实例
2020/07/28 Python
Pycharm常用快捷键总结及配置方法
2020/11/14 Python
详解Python openpyxl库的基本应用
2021/02/26 Python
如何开发一款堪比APP的微信小程序(腾讯内部团队分享)
2016/12/22 HTML / CSS
浅析HTML5中的 History 模式
2017/06/22 HTML / CSS
String是最基本的数据类型吗?
2013/06/13 面试题
生产车间实习自我鉴定
2013/09/23 职场文书
《巨人的花园》教学反思
2014/02/12 职场文书
清正廉洁演讲稿
2014/05/22 职场文书
财务助理岗位职责范本
2014/10/09 职场文书
教师党员整改措施
2014/10/24 职场文书
复兴之路观后感3000字
2015/06/02 职场文书
股权投资协议书
2016/03/23 职场文书
学会掌握自己命运的十条黄金法则:
2019/08/08 职场文书
浅谈Redis的几个过期策略
2021/05/27 Redis