Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python控制台英汉汉英电子词典
Apr 23 Python
python分析nignx访问日志脚本分享
Feb 26 Python
Django实现组合搜索的方法示例
Jan 23 Python
python实现微信自动回复功能
Apr 11 Python
python基础知识(一)变量与简单数据类型详解
Apr 17 Python
解决Django连接db遇到的问题
Aug 29 Python
Python图像处理模块ndimage用法实例分析
Sep 05 Python
django中的数据库迁移的实现
Mar 16 Python
Python接口自动化测试的实现
Aug 28 Python
python实现xml转json文件的示例代码
Dec 30 Python
Python入门之使用pandas分析excel数据
May 12 Python
利用python进行数据加载
Jun 20 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
php下批量挂马和批量清马代码
2011/02/27 PHP
php urlencode()与urldecode()函数字符编码原理详解
2011/12/06 PHP
php实现XSS安全过滤的方法
2015/07/29 PHP
yii2带搜索功能的下拉框实例详解
2016/05/12 PHP
iframe自适应宽度、高度 ie6 7 8,firefox 3.86下测试通过
2010/07/29 Javascript
说明你的Javascript技术很烂的五个原因
2011/04/26 Javascript
推荐11款jQuery开发的复选框和单选框美化插件
2011/08/02 Javascript
基于jquery的web页面日期格式化插件
2011/11/15 Javascript
仿新浪微博登陆邮箱提示效果的js代码
2013/08/02 Javascript
JS实现随机数生成算法示例代码
2013/08/08 Javascript
JS判断两个时间大小的示例代码
2014/01/28 Javascript
javasciprt下jquery函数$.post执行无响应的解决方法
2014/03/13 Javascript
jquery实现全选功能效果的实现代码
2016/05/05 Javascript
微信小程序-小说阅读小程序实例(demo)
2017/01/12 Javascript
Vue 项目代理设置的优化
2018/04/17 Javascript
微信小程序实现折叠展开效果
2018/07/19 Javascript
浅谈高大上的微信小程序中渲染html内容—技术分享
2018/10/25 Javascript
详解微信小程序获取当前时间及日期的方法
2019/04/28 Javascript
解决 viewer.js 动态更新图片导致无法预览的问题
2019/05/14 Javascript
微信小程序 可搜索的地址选择实现详解
2019/08/28 Javascript
JavaScript 面向对象基础简单示例
2019/10/02 Javascript
[05:42]DOTA2英雄梦之声_第10期_蝙蝠骑士
2014/06/21 DOTA
python 动态加载的实现方法
2017/12/22 Python
python模块之paramiko实例代码
2018/01/31 Python
Python 实现异步调用函数的示例讲解
2018/10/14 Python
pandas 快速处理 date_time 日期格式方法
2018/11/12 Python
深入浅析Python 中 is 语法带来的误解
2019/05/07 Python
python selenium实现发送带附件的邮件代码实例
2019/12/10 Python
多媒体编辑专业毕业生求职信
2014/06/13 职场文书
五五普法心得体会
2014/09/04 职场文书
夫妻房产协议书的格式
2014/10/11 职场文书
2014年置业顾问工作总结
2014/11/17 职场文书
干货:我将这样书写我的演讲稿!
2019/05/09 职场文书
详解TS数字分隔符和更严格的类属性检查
2021/05/06 Javascript
Redis 哨兵集群的实现
2021/06/18 Redis
WINDOWS 64位 下安装配置mysql8.0.25最详细的教程
2022/03/22 MySQL