python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python实现获取序列中最小的几个元素
Sep 25 Python
Python通过PIL获取图片主要颜色并和颜色库进行对比的方法
Mar 19 Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 Python
浅谈python中scipy.misc.logsumexp函数的运用场景
Jun 23 Python
Python访问MongoDB,并且转换成Dataframe的方法
Oct 15 Python
使用pyinstaller打包PyQt4程序遇到的问题及解决方法
Jun 24 Python
解决Pytorch 训练与测试时爆显存(out of memory)的问题
Aug 20 Python
python取均匀不重复的随机数方式
Nov 27 Python
解决Django提交表单报错:CSRF token missing or incorrect的问题
Mar 13 Python
Pycharm内置终端及远程SSH工具的使用教程图文详解
Mar 19 Python
Pycharm2020.1安装无法启动问题即设置中文插件的方法
Aug 07 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
PHP 超链接 抓取实现代码
2009/06/29 PHP
彻底删除thinkphp3.1案例blog标签的方法
2014/12/05 PHP
jQuery 遍历json数组的实现代码
2020/09/22 Javascript
一个简单的弹性返回顶部JS代码实现介绍
2013/06/09 Javascript
javascript自然分类法算法实现代码
2013/10/11 Javascript
Jquery跳到页面指定位置的方法
2014/05/12 Javascript
jQuery中after()方法用法实例
2014/12/25 Javascript
js操作table元素实现表格行列新增、删除技巧总结
2015/11/18 Javascript
js手动播放图片实现图片轮播效果
2016/09/17 Javascript
vue的diff算法知识点总结
2018/03/29 Javascript
在layui中select更改后生效的方法
2019/09/05 Javascript
Vue axios 将传递的json数据转为form data的例子
2019/10/29 Javascript
[06:42]DOTA2每周TOP10 精彩击杀集锦vol.1
2014/06/25 DOTA
Python中用于去除空格的三个函数的使用小结
2015/04/07 Python
Python字典简介以及用法详解
2016/11/15 Python
使用Python进行QQ批量登录的实例代码
2018/06/11 Python
python实现通过队列完成进程间的多任务功能示例
2019/10/28 Python
Python-openCV读RGB通道图实例
2020/01/17 Python
python匿名函数lambda原理及实例解析
2020/02/07 Python
使用python实现飞机大战游戏
2020/03/23 Python
如何使用python切换hosts文件
2020/04/29 Python
python使用for...else跳出双层嵌套循环的方法实例
2020/05/17 Python
可视化pytorch 模型中不同BN层的running mean曲线实例
2020/06/24 Python
关于css兼容性问题及一些常见问题汇总
2016/05/03 HTML / CSS
Mytheresa英国官网:拥有160多个奢侈品品牌
2016/10/09 全球购物
专业幼师实习生自我鉴定范文
2013/12/08 职场文书
应届生自我鉴定
2013/12/11 职场文书
关于工资低的辞职信
2014/01/14 职场文书
2014国庆节演讲稿:祖国在我心中(400字)
2014/09/25 职场文书
解除劳动关系协议书2篇
2014/11/28 职场文书
行政文员岗位职责
2015/02/04 职场文书
2015年大学生党员承诺书
2015/04/27 职场文书
二审答辩状范文
2015/05/22 职场文书
信用卡收入证明范本
2015/06/12 职场文书
SQL CASE 表达式的具体使用
2022/03/21 SQL Server
Python进程间的通信之语法学习
2022/04/11 Python