Python实现提取PDF简历信息并存入Excel


Posted in Python onApril 02, 2022

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

Python实现提取PDF简历信息并存入Excel

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

Python实现提取PDF简历信息并存入Excel

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

Python实现提取PDF简历信息并存入Excel

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

Python实现提取PDF简历信息并存入Excel

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

到此这篇关于Python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
wxPython窗口中文乱码解决方法
Oct 11 Python
python数据结构之图深度优先和广度优先实例详解
Jul 08 Python
解读Django框架中的低层次缓存API
Jul 24 Python
python 截取 取出一部分的字符串方法
Mar 01 Python
Python中enumerate()函数编写更Pythonic的循环
Mar 06 Python
Python函数装饰器实现方法详解
Dec 22 Python
python字典的常用方法总结
Jul 31 Python
文件上传服务器-jupyter 中python解压及压缩方式
Apr 22 Python
使用Python pip怎么升级pip
Aug 11 Python
Python函数调用追踪实现代码
Nov 27 Python
Django项目在pycharm新建的步骤方法
Mar 02 Python
python反编译教程之2048小游戏实例
Mar 03 Python
python对文档中元素删除,替换操作
Apr 02 #Python
Python中第三方库Faker的使用详解
Python数据处理的三个实用技巧分享
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
You might like
分享PHP入门的学习方法
2007/01/02 PHP
thinkphp中memcache的用法实例
2014/11/29 PHP
PHP封装的page分页类定义与用法完整示例
2018/12/24 PHP
JavaScript 编程引入命名空间的方法
2007/06/29 Javascript
js跨域和ajax 跨域问题的实现思路
2009/09/05 Javascript
ExtJs扩展之GroupPropertyGrid代码
2010/03/05 Javascript
in.js 一个轻量级的JavaScript颗粒化模块加载和依赖关系管理解决方案
2011/07/26 Javascript
js多级树形弹出一个小窗口层(非常好用)实例代码
2013/03/19 Javascript
js中小数转换整数的方法
2014/01/26 Javascript
jQuery拖拽div实现思路
2014/02/19 Javascript
借助JavaScript脚本判断浏览器Flash Player信息的方法
2014/07/09 Javascript
jQuery实现鼠标经过提示信息的地图热点效果
2015/04/26 Javascript
jquery调整表格行tr上下顺序实例讲解
2016/01/09 Javascript
jQueryUI中的datepicker使用方法详解
2016/05/25 Javascript
浅谈js对象属性 通过点(.) 和方括号([]) 的不同之处
2016/10/29 Javascript
js上传图片预览的实现方法
2017/05/09 Javascript
javascript+html5+css3自定义提示窗口
2017/06/21 Javascript
vue-cli项目中怎么使用mock数据
2017/09/27 Javascript
微信小程序icon组件使用详解
2018/01/31 Javascript
解决VUE双向绑定失效的问题
2019/10/29 Javascript
vue 将多个过滤器封装到一个文件中的代码详解
2020/09/05 Javascript
[02:32]DOTA2完美大师赛场馆静安体育中心观赛全攻略
2017/11/08 DOTA
python求解水仙花数的方法
2015/05/11 Python
尝试使用Python多线程抓取代理服务器IP地址的示例
2015/11/09 Python
深入浅析python 中的匿名函数
2018/05/21 Python
Python读取csv文件分隔符设置方法
2019/01/14 Python
pyQt5实时刷新界面的示例
2019/06/25 Python
python实现滑雪游戏
2020/02/22 Python
10 套华丽的CSS3 按钮小结
2012/10/03 HTML / CSS
微信端html5页面调用分享接口示例
2018/03/14 HTML / CSS
购买限量版收藏品、珠宝和礼品:Bradford Exchange
2016/09/23 全球购物
园林技术专业求职信
2014/07/28 职场文书
杭州西湖英语导游词
2015/02/03 职场文书
Python如何把不同类型数据的json序列化
2021/04/30 Python
Spring整合Mybatis的全过程
2021/06/28 Java/Android
Python中非常使用的6种基本变量的操作与技巧
2022/03/22 Python