Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python中使用异步Socket编程性能测试
Jun 25 Python
python魔法方法-自定义序列详解
Jul 21 Python
浅析Python中元祖、列表和字典的区别
Aug 17 Python
Python获取SQLite查询结果表列名的方法
Jun 21 Python
Python 处理数据的实例详解
Aug 10 Python
Python进阶学习之特殊方法实例详析
Dec 01 Python
详解pandas如何去掉、过滤数据集中的某些值或者某些行?
May 15 Python
pytorch中的自定义反向传播,求导实例
Jan 06 Python
tensorflow实现测试时读取任意指定的check point的网络参数
Jan 21 Python
Python pip install如何修改默认下载路径
Apr 29 Python
Django DRF路由与扩展功能的实现
Jun 03 Python
移除Selenium中window.navigator.webdriver值
Jun 10 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
php实现12306火车票余票查询和价格查询(12306火车票查询)
2014/01/14 PHP
CI(Codeigniter)的Setting增强配置类实例
2016/01/06 PHP
PHP购物车类Cart.class.php定义与用法示例
2016/07/20 PHP
php 下 html5 XHR2 + FormData + File API 上传文件操作实例分析
2020/02/28 PHP
js单独获取一个checkbox看其是否被选中
2014/09/22 Javascript
吐槽一下我所了解的Node.js
2014/10/08 Javascript
jquery滚动到顶部底部代码
2015/04/20 Javascript
如何实现JavaScript动态加载CSS和JS文件
2020/12/28 Javascript
浅谈JavaScript for循环 闭包
2016/06/22 Javascript
jQuery网页定位导航特效实现方法
2016/12/19 Javascript
解决AngualrJS页面刷新导致异常显示问题
2017/04/20 Javascript
Vue项目中使用better-scroll实现一个轮播图自动播放功能
2018/12/03 Javascript
基于p5.js 2D图像接口的扩展(交互实现)
2020/11/30 Javascript
Vue 3自定义指令开发的相关总结
2021/01/29 Vue.js
[53:13]2014 DOTA2国际邀请赛中国区预选赛5.21 DT VS LGD-GAMING
2014/05/22 DOTA
[56:42]VP vs RNG 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/17 DOTA
Python实现把json格式转换成文本或sql文件
2015/07/10 Python
Python用户推荐系统曼哈顿算法实现完整代码
2017/12/01 Python
python合并同类型excel表格的方法
2018/04/01 Python
python监控进程脚本
2018/04/12 Python
python 自定义异常和异常捕捉的方法
2018/10/18 Python
利用Python小工具实现3秒钟将视频转换为音频
2019/10/29 Python
Python多重继承之菱形继承的实例详解
2020/02/12 Python
pycharm的python_stubs问题
2020/04/08 Python
详解pycharm自动import所需的库的操作方法
2020/11/30 Python
Python3使用Selenium获取session和token方法详解
2021/02/16 Python
中国茶叶、茶具一站式网上购物商城:醉品茶城
2018/07/03 全球购物
广告创意求职信
2014/03/17 职场文书
有趣的广告词
2014/03/18 职场文书
党支部承诺书范文
2014/03/28 职场文书
班长竞选演讲稿
2014/04/24 职场文书
营销与策划专业求职信
2014/06/20 职场文书
反邪教学习心得体会
2016/01/15 职场文书
2016年第104个国际护士节活动总结
2016/04/06 职场文书
创业计划书之废品回收
2019/09/26 职场文书
nginx搭建NFS网络文件系统
2022/04/14 Servers