Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python Trie树实现字典排序
Mar 28 Python
python的描述符(descriptor)、装饰器(property)造成的一个无限递归问题分享
Jul 09 Python
Python下rrdtool模块的基本使用方法
Nov 13 Python
Python爬取三国演义的实现方法
Sep 12 Python
python使用正则表达式匹配字符串开头并打印示例
Jan 11 Python
Python决策树分类算法学习
Dec 22 Python
flask框架使用orm连接数据库的方法示例
Jul 16 Python
Python简单获取二维数组行列数的方法示例
Dec 21 Python
Python3中_(下划线)和__(双下划线)的用途和区别
Apr 26 Python
Python3 main函数使用sys.argv传入多个参数的实现
Dec 25 Python
Pyinstaller加密打包应用的示例代码
Jun 11 Python
详解python 条件语句和while循环的实例代码
Dec 28 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
php4的session功能评述(二)
2006/10/09 PHP
php反弹shell实现代码
2009/04/22 PHP
Godaddy空间Zend Optimizer升级方法
2010/05/10 PHP
Yii使用find findAll查找出指定字段的实现方法
2014/09/05 PHP
兼容Mozilla必须知道的知识。
2007/01/09 Javascript
js资料toString 方法
2007/03/13 Javascript
JQuery FlexiGrid的asp.net完美解决方案 dotNetFlexGrid-.Net原生的异步表格控件
2010/09/12 Javascript
jQuery.event兼容各浏览器的event详细解析
2013/12/18 Javascript
原生js实现类似弹窗抖动效果
2015/04/02 Javascript
JS实现模拟风力的雪花飘落效果
2015/05/13 Javascript
javascript实现列表切换效果
2016/05/02 Javascript
jQuery中使用animate自定义动画的方法
2016/05/29 Javascript
Javascript数组循环遍历之forEach详解
2016/11/07 Javascript
Vue DevTools调试工具的使用
2017/12/05 Javascript
Spring boot 和Vue开发中CORS跨域问题解决
2018/09/05 Javascript
JavaScript定时器设置、使用与倒计时案例详解
2019/07/08 Javascript
Vue项目打包部署到iis服务器的配置方法
2019/10/14 Javascript
[01:27]DOTA2电竞之夜 今夜共饮庆功酒
2014/08/02 DOTA
Python实现通过文件路径获取文件hash值的方法
2017/04/29 Python
python pandas读取csv后,获取列标签的方法
2018/11/12 Python
Python 基于FIR实现Hilbert滤波器求信号包络详解
2020/02/26 Python
Python求解排列中的逆序数个数实例
2020/05/03 Python
Python中的Cookie模块如何使用
2020/06/04 Python
python tkinter实现连连看游戏
2020/11/16 Python
html5开发之viewport使用
2013/10/17 HTML / CSS
Rockport乐步美国官网:风靡美国的白宫鞋
2016/11/24 全球购物
Omio波兰:全欧洲低价大巴、火车和航班搜索和比价
2018/02/16 全球购物
超市营业员岗位职责
2013/12/20 职场文书
心得体会开头
2014/01/01 职场文书
关于安全的演讲稿
2014/05/09 职场文书
社区助残日活动总结
2014/08/29 职场文书
学习优秀党务工作者先进事迹材料思想报告
2014/09/17 职场文书
2014年高中教师工作总结
2014/12/19 职场文书
写作技巧:如何撰写一份优秀的营销策划书
2019/08/13 职场文书
nginx location优先级的深入讲解
2021/03/31 Servers
mysql性能优化以及配置连接参数设置
2022/05/06 MySQL