python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python中django框架通过正则搜索页面上email地址的方法
Mar 21 Python
python中黄金分割法实现方法
May 06 Python
理解python中生成器用法
Dec 20 Python
20个常用Python运维库和模块
Feb 12 Python
基于Python pip用国内镜像下载的方法
Jun 12 Python
PyTorch基本数据类型(一)
May 22 Python
python 批量修改 labelImg 生成的xml文件的方法
Sep 09 Python
python实现简单井字棋小游戏
Mar 05 Python
Python内存映射文件读写方式
Apr 24 Python
在django admin中配置搜索域是一个外键时的处理方法
May 20 Python
python基本算法之实现归并排序(Merge sort)
Sep 01 Python
Selenium Webdriver元素定位的八种常用方式(小结)
Jan 13 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
Javascript 阻止javascript事件冒泡,获取控件ID值
2009/06/27 Javascript
基于jQuery的动态表格插件
2011/03/28 Javascript
javascript-表格排序(降序/反序)实现介绍(附图)
2013/05/30 Javascript
png在IE6 下无法透明的解决方法汇总
2015/05/21 Javascript
如何利用Promises编写更优雅的JavaScript代码
2016/05/17 Javascript
jquery获取所有选中的checkbox实现代码
2016/05/26 Javascript
js中的关联数组与普通数组详解
2016/07/27 Javascript
Javascript中的对象和原型(二)
2016/08/12 Javascript
jQuery Validate插件实现表单验证
2016/08/19 Javascript
jquery获取easyui日期控件的值实现方法
2016/11/09 Javascript
js实现一个可以兼容PC端和移动端的div拖动效果实例
2016/12/09 Javascript
setTimeout学习小结
2017/02/08 Javascript
Express系列之multer上传的使用
2017/10/27 Javascript
Vue3 源码导读(推荐)
2019/10/14 Javascript
详解webpack的clean-webpack-plugin插件报错
2020/10/16 Javascript
[01:13]这,就是刀塔
2014/07/16 DOTA
Python中的面向对象编程详解(下)
2015/04/13 Python
Python中字典的setdefault()方法教程
2017/02/07 Python
pandas的唯一值、值计数以及成员资格的示例
2018/07/25 Python
用python给自己做一款小说阅读器过程详解
2019/07/11 Python
用Pytorch训练CNN(数据集MNIST,使用GPU的方法)
2019/08/19 Python
一款基于css3的动画按钮代码教程
2014/11/23 HTML / CSS
纯css实现照片墙3D效果的示例代码
2017/11/13 HTML / CSS
DC Shoes俄罗斯官网:美国滑板鞋和服饰品牌
2020/08/19 全球购物
通信研究生自荐信
2014/02/01 职场文书
高中军训第一天感言
2014/03/06 职场文书
《长相思》听课反思
2014/04/10 职场文书
员工试用期考核自我鉴定
2014/04/13 职场文书
文化建设工作方案
2014/05/12 职场文书
优秀大学生自荐信
2014/06/09 职场文书
开场白怎么写
2015/06/01 职场文书
陪护人员误工证明
2015/06/24 职场文书
婚庆开业庆典主持词
2015/06/30 职场文书
六一儿童节新闻稿
2015/07/17 职场文书
教你用Python写一个植物大战僵尸小游戏
2021/04/25 Python
java固定大小队列的几种实现方式详解
2021/07/15 Java/Android