python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Python类属性的延迟计算
Oct 22 Python
python多进程提取处理大量文本的关键词方法
Jun 05 Python
详解Python3.6的py文件打包生成exe
Jul 13 Python
朴素贝叶斯Python实例及解析
Nov 19 Python
python之拟合的实现
Jul 19 Python
Pytorch自己加载单通道图片用作数据集训练的实例
Jan 18 Python
Django框架静态文件处理、中间件、上传文件操作实例详解
Feb 29 Python
解决Python安装cryptography报错问题
Sep 03 Python
python判断元素是否存在的实例方法
Sep 24 Python
Python+logging输出到屏幕将log日志写入文件
Nov 11 Python
Python-split()函数实例用法讲解
Dec 18 Python
利用python Pandas实现批量拆分Excel与合并Excel
May 23 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
php结合mysql与mysqli扩展处理事务的方法
2016/06/29 PHP
PHP var关键字相关原理及使用实例解析
2020/07/11 PHP
JavaScript 计算当天是本年本月的第几周
2009/03/22 Javascript
扩展javascript的Date方法实现代码(prototype)
2010/11/20 Javascript
使用jQuery.fn自定义jQuery翻页插件
2013/01/20 Javascript
瀑布流布局并自动加载实现代码
2013/03/12 Javascript
Nodejs全栈框架StrongLoop推荐
2014/11/09 NodeJs
高效的jquery数字滚动特效
2015/12/17 Javascript
jQuery实现点击查看大图并以弹框的形式居中
2016/08/08 Javascript
js获取页面引用的css样式表中的属性值方法(推荐)
2016/08/19 Javascript
Angular 通过注入 $location 获取与修改当前页面URL的实例
2017/05/31 Javascript
angularjs实现搜索的关键字在正文中高亮出来
2017/06/13 Javascript
浅谈使用React.setState需要注意的三点
2017/12/18 Javascript
JavaScript设计模式之命令模式实例分析
2019/01/16 Javascript
[43:32]Winstrike vs VGJ.S 2018国际邀请赛淘汰赛BO3 第一场 8.23
2018/08/24 DOTA
浅谈Python中的可变对象和不可变对象
2017/07/07 Python
Python3.4实现远程控制电脑开关机
2018/02/22 Python
pandas按若干个列的组合条件筛选数据的方法
2018/04/11 Python
python3 判断列表是一个空列表的方法
2018/05/04 Python
用Python3创建httpServer的简单方法
2018/06/04 Python
如何利用Pyecharts可视化微信好友
2019/07/04 Python
对django中foreignkey的简单使用详解
2019/07/28 Python
Python+appium框架原生代码实现App自动化测试详解
2020/03/06 Python
python+selenium+Chrome options参数的使用
2020/03/18 Python
Python Pandas 对列/行进行选择,增加,删除操作
2020/05/17 Python
html5 sessionStorage会话存储_动力节点Java学院整理
2017/07/06 HTML / CSS
数百万免费的图形资源:Freepik
2020/09/21 全球购物
大学生的应聘自我评价
2013/12/13 职场文书
《木笛》教学反思
2014/03/01 职场文书
募捐倡议书
2014/04/14 职场文书
助人为乐好少年事迹材料
2014/08/18 职场文书
2014村党支部书记党建工作汇报材料
2014/11/02 职场文书
超市督导岗位职责
2015/04/10 职场文书
公务员保密工作承诺书
2015/05/04 职场文书
圆明园观后感
2015/06/03 职场文书
JavaScript与JQuery框架基础入门教程
2021/07/15 Javascript