Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
django框架如何集成celery进行开发
May 24 Python
在IPython中执行Python程序文件的示例
Nov 01 Python
通过cmd进入python的实例操作
Jun 26 Python
Python谱减法语音降噪实例
Dec 18 Python
Python线程threading模块用法详解
Feb 26 Python
windows下的pycharm安装及其设置中文菜单
Apr 23 Python
Python实现发票自动校核微信机器人的方法
May 22 Python
浅谈python opencv对图像颜色通道进行加减操作溢出
Jun 03 Python
如何设置PyCharm中的Python代码模版(推荐)
Nov 20 Python
用Python实现职工信息管理系统
Dec 30 Python
python如何修改文件时间属性
Feb 05 Python
如何用 Python 子进程关闭 Excel 自动化中的弹窗
May 07 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
用PHP 快速生成 Flash 动画的方法
2007/03/06 PHP
PHP在字符串中查找指定字符串并删除的代码
2008/10/02 PHP
php发送邮件的问题详解
2015/06/22 PHP
微信支付PHP SDK ―― 公众号支付代码详解
2016/09/13 PHP
php实现在线考试系统【附源码】
2018/09/18 PHP
PHP如何使用array_unshift()在数组开头插入元素
2020/09/01 PHP
Jquery实战_读书笔记1—选择jQuery
2010/01/22 Javascript
Javascript获取HTML静态页面参数传递值示例
2013/08/18 Javascript
js实现的早期滑动门菜单效果代码
2015/08/27 Javascript
javascript简单判断输入内容是否合法的方法
2016/05/11 Javascript
AngularJS入门示例之Hello World详解
2017/01/04 Javascript
基于bootstrap实现收缩导航条
2017/03/17 Javascript
详解Angular 自定义结构指令
2017/06/21 Javascript
vue元素实现动画过渡效果
2017/07/01 Javascript
Vue实现数字输入框中分割手机号码的示例
2017/10/10 Javascript
Vue中Quill富文本编辑器的使用教程
2018/09/21 Javascript
vscode配置vue下的es6规范自动格式化详解
2019/03/20 Javascript
如何在微信小程序中存setStorage
2019/12/13 Javascript
[00:43]DOTA2小紫本全民票选福利PA至宝全方位展示
2014/11/25 DOTA
Python基于pillow判断图片完整性的方法
2016/09/18 Python
Python实现删除列表中满足一定条件的元素示例
2017/06/12 Python
Python在for循环中更改list值的方法【推荐】
2018/08/17 Python
python 循环读取txt文档 并转换成csv的方法
2018/10/26 Python
django开发post接口简单案例,获取参数值的方法
2018/12/11 Python
解决python中0x80072ee2错误的方法
2020/07/19 Python
PyQt5的QWebEngineView使用示例
2020/10/20 Python
荷兰牛仔裤网上商店:Jeans Centre
2018/04/03 全球购物
高等教育专业自荐信范文
2014/03/26 职场文书
财务部绩效考核方案
2014/05/04 职场文书
思想道德自我评价2015
2015/03/09 职场文书
小人国观后感
2015/06/11 职场文书
红白喜事主持词
2015/07/06 职场文书
总经理致辞
2015/07/29 职场文书
2019年度开业庆典祝福语大全!
2019/07/05 职场文书
Redis高并发防止秒杀超卖实战源码解决方案
2021/11/01 Redis
Redis模仿手机验证码发送的实现示例
2021/11/02 Redis