python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python中的一些类型转换函数小结
Feb 10 Python
python中MethodType方法介绍与使用示例
Aug 03 Python
python批量替换多文件字符串问题详解
Apr 22 Python
使用Python制作简单的小程序IP查看器功能
Apr 16 Python
python实现websocket的客户端压力测试
Jun 25 Python
Django 静态文件配置过程详解
Jul 23 Python
Python统计时间内的并发数代码实例
Dec 28 Python
python 计算方位角实例(根据两点的坐标计算)
Jan 17 Python
Tensorflow训练模型越来越慢的2种解决方案
Feb 07 Python
Python unittest discover批量执行代码实例
Sep 08 Python
selenium框架中driver.close()和driver.quit()关闭浏览器
Dec 08 Python
MATLAB 如何求取离散点的曲率最大值
Apr 16 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
php学习之流程控制实现代码
2011/06/09 PHP
php7 list()、session及其他模块的修改实例分析
2020/05/25 PHP
摘自启点的main.js
2008/04/20 Javascript
javascript options属性集合操作代码
2009/12/28 Javascript
精选的10款用于构建良好易用性网站的jQuery插件
2011/01/23 Javascript
jQuery实现的Email中的收件人效果(按del键删除)
2011/03/20 Javascript
js如何获取file控件的完整路径具体实现代码
2013/05/15 Javascript
Jquery中LigerUi的弹出编辑框(实现方法)
2013/07/09 Javascript
javascript if条件判断方法小结
2014/05/17 Javascript
JQuery记住用户名密码实现下次自动登录功能
2015/04/27 Javascript
Node.js中Request模块处理HTTP协议请求的基本使用教程
2016/03/31 Javascript
Angularjs结合Bootstrap制作的一个TODO List
2016/08/18 Javascript
jquery实现轮播图效果
2017/02/13 Javascript
使用vue.js编写蓝色拼图小游戏
2017/03/17 Javascript
基于ExtJs在页面上window再调用Window的事件处理方法
2017/07/26 Javascript
vue 动态添加class,三个以上的条件做判断方式
2020/11/02 Javascript
[30:55]完美世界DOTA2联赛PWL S2 Magma vs LBZS 第二场 11.18
2020/11/18 DOTA
Python学习笔记_数据排序方法
2014/05/22 Python
Python多线程结合队列下载百度音乐的方法
2015/07/27 Python
深入解析Python编程中JSON模块的使用
2015/10/15 Python
Python 使用 attrs 和 cattrs 实现面向对象编程的实践
2019/06/12 Python
解决Django中修改js css文件但浏览器无法及时与之改变的问题
2019/08/31 Python
Python猴子补丁知识点总结
2020/01/05 Python
CSS3 优势以及网页设计师如何使用CSS3技术
2009/07/29 HTML / CSS
非洲NO.1网上商店:Jumia肯尼亚
2016/08/18 全球购物
伦敦一家西班牙童装精品店:La Coqueta
2018/02/02 全球购物
印度服装购物网站:Limeroad
2018/09/26 全球购物
北京一家公司的.net开发工程师笔试题
2012/04/17 面试题
四年级下册教学反思
2014/02/01 职场文书
小学新教师培训方案
2014/02/03 职场文书
售后服务承诺书范文
2014/03/26 职场文书
团队拓展活动总结
2014/08/27 职场文书
学校师德师风整改措施
2014/10/27 职场文书
转正申请报告格式
2015/05/15 职场文书
初中政教处工作总结
2015/08/12 职场文书
放假通知怎么写
2015/08/18 职场文书