python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Python实现查找匹配项作处理后再替换回去的方法
Jun 10 Python
python生成不重复随机数和对list乱序的解决方法
Apr 09 Python
Python实现操纵控制windows注册表的方法分析
May 24 Python
python 安装impala包步骤
Mar 28 Python
python nohup 实现远程运行不宕机操作
Apr 16 Python
通过Python实现一个简单的html页面
May 16 Python
使用Keras中的ImageDataGenerator进行批次读图方式
Jun 17 Python
Python如何实现自带HTTP文件传输服务
Jul 08 Python
python Yaml、Json、Dict之间的转化
Oct 19 Python
Python数据分析入门之数据读取与存储
May 13 Python
Python调用腾讯API实现人脸身份证比对功能
Apr 04 Python
Python批量解压&压缩文件夹的示例代码
Apr 04 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
星际争霸 Starcraft 编年史
2020/03/14 星际争霸
php Undefined index和Undefined variable的解决方法
2008/03/27 PHP
MySql 按时间段查询数据方法(实例说明)
2008/11/02 PHP
php 读取shell管道传输过来的内容
2010/03/01 PHP
js事件监听机制(事件捕获)总结
2014/08/08 Javascript
JavaScript正则表达式中的ignoreCase属性使用详解
2015/06/16 Javascript
设置点击文本框或图片弹出日历控件的实现代码
2016/05/12 Javascript
AngularJS基础 ng-click 指令示例代码
2016/08/01 Javascript
基于JSON格式数据的简单jQuery幻灯片插件(jquery-slider)
2016/08/10 Javascript
AngularJS实现按钮提示与点击变色效果
2016/09/07 Javascript
JavaScript实现换肤功能
2017/09/15 Javascript
jquery实现搜索框功能实例详解
2018/07/23 jQuery
JS中数组与对象的遍历方法实例小结
2018/08/14 Javascript
Vue 莹石摄像头直播视频实例代码
2018/08/31 Javascript
Vue动态面包屑功能的实现方法
2019/07/01 Javascript
监控微信小程序中的慢HTTP请求过程详解
2019/07/05 Javascript
layui问题之自动滚动二级iframe页面到指定位置的方法
2019/09/18 Javascript
vue 实现特定条件下绑定事件
2019/11/09 Javascript
[36:17]DOTA2上海特级锦标赛 - VGL音乐会全集
2016/03/06 DOTA
Python实现OpenCV的安装与使用示例
2018/03/30 Python
python读取word文档,插入mysql数据库的示例代码
2018/11/07 Python
Python命名空间namespace及作用域原理解析
2020/06/05 Python
Python批量删除mysql中千万级大量数据的脚本分享
2020/12/03 Python
python基于opencv 实现图像时钟
2021/01/04 Python
html5 touch事件实现触屏页面上下滑动(一)
2016/03/10 HTML / CSS
html5 制作地图当前定位箭头的方法示例
2020/01/10 HTML / CSS
世界上最值得信赖的多日游在线市场:TourRadar
2018/07/20 全球购物
日本著名化妆品零售网站:Cosme Land
2019/03/01 全球购物
咖啡店的创业计划书,让你hold不住
2014/01/03 职场文书
行政工作个人的自我评价
2014/02/13 职场文书
事务机电主管工作职责
2014/02/25 职场文书
销售类求职信
2014/06/13 职场文书
该怎么书写道歉信?
2019/07/03 职场文书
学习师德师风的心得体会(2篇)
2019/10/08 职场文书
Html5大屏数据可视化开发的实现
2021/06/11 HTML / CSS
Redis基本数据类型Zset有序集合常用操作
2022/06/01 Redis