python 爬取免费简历模板网站的示例


Posted in Python onSeptember 27, 2020

代码

# 免费的简历模板进行爬取本地保存 
# http://sc.chinaz.com/jianli/free.html
# http://sc.chinaz.com/jianli/free_2.html

import requests
from lxml import etree
import os

dirName = './resumeLibs'
if not os.path.exists(dirName):
  os.mkdir(dirName)

headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
url = 'http://sc.chinaz.com/jianli/free_%d.html'
for page in range(1,2):
  if page == 1:
    new_url = 'http://sc.chinaz.com/jianli/free.html'
  else:
    new_url = format(url%page)
  page_text = requests.get(url=new_url,headers=headers).text
  tree = etree.HTML(page_text)
  a_list = tree.xpath('//div[@id="container"]/div/p/a')
  
  for a in a_list:
    a_src = a.xpath('./@href')[0]
    a_title = a.xpath('./text()')[0]
    a_title = a_title.encode('iso-8859-1').decode('utf-8')
    # 爬取下载页面
    page_text = requests.get(url=a_src,headers=headers).text
    tree = etree.HTML(page_text)
    dl_src = tree.xpath('//div[@id="down"]/div[2]/ul/li[8]/a/@href')[0]
    
    resume_data = requests.get(url=dl_src,headers=headers).content
    resume_name = a_title
    resume_path = dirName + '/' + resume_name + '.rar'
    with open(resume_path,'wb') as fp:
      fp.write(resume_data)
      print(resume_name,'下载成功!')

爬取结果

python 爬取免费简历模板网站的示例

python 爬取免费简历模板网站的示例

以上就是python 爬取免费简历模板网站的示例的详细内容,更多关于python 爬取网站的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
初步介绍Python中的pydoc模块和distutils模块
Apr 13 Python
python 获取网页编码方式实现代码
Mar 11 Python
利用numpy+matplotlib绘图的基本操作教程
May 03 Python
Flask解决跨域的问题示例代码
Feb 12 Python
python学习基础之循环import及import过程
Apr 22 Python
python 获取当天凌晨零点的时间戳方法
May 22 Python
Python重新加载模块的实现方法
Oct 16 Python
详解Python二维数组与三维数组切片的方法
Jul 18 Python
python flask搭建web应用教程
Nov 19 Python
Python装饰器实现方法及应用场景详解
Mar 26 Python
Python接口测试文件上传实例解析
May 22 Python
keras.utils.to_categorical和one hot格式解析
Jul 02 Python
python如何提升爬虫效率
Sep 27 #Python
python操作链表的示例代码
Sep 27 #Python
python用tkinter实现一个简易能进行随机点名的界面
Sep 27 #Python
python实现暗通道去雾算法的示例
Sep 27 #Python
谈谈python垃圾回收机制
Sep 27 #Python
如何在python中处理配置文件代码实例
Sep 27 #Python
Python 开发工具通过 agent 代理使用的方法
Sep 27 #Python
You might like
Laravel框架学习笔记(一)环境搭建
2014/10/15 PHP
PHP二维数组排序简单实现方法
2016/02/14 PHP
编写跨浏览器的javascript代码必备[js多浏览器兼容写法]
2008/10/29 Javascript
jQuery .attr()和.removeAttr()方法操作元素属性示例
2013/07/16 Javascript
使用js判断TextBox控件值改变然后出发事件
2014/03/07 Javascript
验证码在IE中不刷新而谷歌等浏览器正常的解决方案
2014/03/18 Javascript
总结jQuery插件开发中的一些要点
2016/05/16 Javascript
jQuery获取多种input值的简单实现方法
2016/06/20 Javascript
微信小程序  自定义创建详细介绍
2016/10/27 Javascript
JS创建对象的写法示例
2016/11/04 Javascript
图片上传之FileAPI与NodeJs
2017/01/24 NodeJs
js读取json文件片段中的数据实例
2017/03/09 Javascript
javascript 日期相减-在线教程(附代码)
2017/08/17 Javascript
webpack构建react多页面应用详解
2017/09/15 Javascript
vue 页面加载进度条组件实例
2018/02/05 Javascript
Angular通过指令动态添加组件问题
2018/07/09 Javascript
vue-cli 3.x 配置Axios(proxyTable)跨域代理方法
2018/09/19 Javascript
分享Angular http interceptors 拦截器使用(推荐)
2019/11/10 Javascript
解决vue侦听器watch,调用this时出现undefined的问题
2020/10/30 Javascript
[01:14]英雄,所敬略同——2018完美盛典宣传视频
2018/12/05 DOTA
[56:42]完美世界DOTA2联赛循环赛 Matador vs Forest 第二场 11.06
2020/11/06 DOTA
python中cPickle用法例子分享
2014/01/03 Python
python 读取txt中每行数据,并且保存到excel中的实例
2018/04/29 Python
selenium+python 去除启动的黑色cmd窗口方法
2018/05/22 Python
python3+selenium自动化测试框架详解
2019/03/17 Python
Scrapy框架实现的登录网站操作示例
2020/02/06 Python
django-xadmin根据当前登录用户动态设置表单字段默认值方式
2020/03/13 Python
解决django FileFIELD的编码问题
2020/03/30 Python
澳大利亚拥有最佳跳伞降落点和最好服务的跳伞项目运营商:Skydive Australia
2018/03/05 全球购物
机关领导查摆四风思想汇报
2014/09/13 职场文书
2014乡镇党委副书记对照检查材料思想汇报
2014/10/09 职场文书
具结保证书
2015/01/17 职场文书
超市食品安全承诺书
2015/04/29 职场文书
Python中zipfile压缩包模块的使用
2021/05/14 Python
Python - 10行代码集2000张美女图
2021/05/23 Python
CentOS7和8下安装Maven3.8.4
2022/04/07 Servers