python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Python实现的一个找零钱的小程序代码分享
Aug 25 Python
快速入手Python字符编码
Aug 03 Python
python常用知识梳理(必看篇)
Mar 23 Python
Python中的Numpy矩阵操作
Aug 12 Python
Tensorflow使用支持向量机拟合线性回归
Sep 07 Python
浅谈Python 多进程默认不能共享全局变量的问题
Jan 11 Python
使用Pytorch来拟合函数方式
Jan 14 Python
selenium WebDriverWait类等待机制的实现
Mar 18 Python
详解tf.device()指定tensorflow运行的GPU或CPU设备实现
Feb 20 Python
python3实现无权最短路径的方法
May 12 Python
教你怎么用Python实现GIF动图的提取及合成
Jun 15 Python
Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析
Oct 16 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
php自定义错误处理用法实例
2015/03/20 PHP
使用PHP+Redis实现延迟任务,实现自动取消订单功能
2019/11/21 PHP
StringTemplate遇见jQuery冲突的解决方法
2011/09/22 Javascript
表单类各种类型(文本框)失去焦点效果jquery代码
2013/04/26 Javascript
如何让页面加载完成后执行js
2013/06/26 Javascript
基于jquery实现的定时显示与隐藏div广告的实现代码
2013/08/22 Javascript
鼠标滑过出现预览的大图提示效果
2014/02/26 Javascript
javascript中2个感叹号的用法实例详解
2014/09/04 Javascript
jquery单选框radio绑定click事件实现方法
2015/01/14 Javascript
JQuery基础语法小结
2015/02/27 Javascript
jQuery获取复选框被选中数量及判断选择值的方法详解
2016/05/25 Javascript
微信小程序  自定义创建详细介绍
2016/10/27 Javascript
vue开发心得和技巧分享
2016/10/27 Javascript
javascript实现文字无缝滚动
2016/12/27 Javascript
Jquery实时监听input value的实例
2017/01/26 Javascript
jQuery实现网页拼图游戏
2020/04/22 jQuery
javascript sort()对数组中的元素进行排序详解
2019/10/13 Javascript
Vue toFixed保留两位小数的3种方式
2020/10/23 Javascript
jQuery实现移动端扭蛋机抽奖
2020/11/08 jQuery
vue3自定义dialog、modal组件的方法
2021/01/04 Vue.js
python异常和文件处理机制详解
2016/07/19 Python
Python Numpy 数组的初始化和基本操作
2018/03/13 Python
Python循环结构的应用场景详解
2019/07/11 Python
django做form表单的数据验证过程详解
2019/07/26 Python
python zip()函数使用方法解析
2019/10/31 Python
python 实现多维数组转向量
2019/11/30 Python
如何在mac版pycharm选择python版本
2020/07/21 Python
Anaconda使用IDLE的实现示例
2020/09/23 Python
python Pexpect模块的使用
2020/12/25 Python
经济与贸易专业应届生求职信
2013/11/19 职场文书
抽样调查项目计划书
2014/04/24 职场文书
学校评语大全
2014/05/06 职场文书
幼儿园教学工作总结2015
2015/05/12 职场文书
《曹冲称象》教学反思
2016/02/20 职场文书
2016秋季运动会开幕词
2016/03/04 职场文书
Python Pandas 删除列操作
2022/03/16 Python