python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Django查询数据库的性能优化示例代码
Sep 24 Python
基于python的多进程共享变量正确打开方式
Apr 28 Python
在ubuntu16.04中将python3设置为默认的命令写法
Oct 31 Python
python psutil模块使用方法解析
Aug 01 Python
pycharm 批量修改变量名称的方法
Aug 01 Python
Python脚本操作Excel实现批量替换功能
Nov 20 Python
Tensorflow: 从checkpoint文件中读取tensor方式
Feb 10 Python
Python破解BiliBili滑块验证码的思路详解(完美避开人机识别)
Feb 17 Python
keras中模型训练class_weight,sample_weight区别说明
May 23 Python
python上selenium的弹框操作实现
Jul 13 Python
Python利用myqr库创建自己的二维码
Nov 24 Python
Python标准库之typing的用法(类型标注)
Jun 02 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
用php实现让页面只能被百度gogole蜘蛛访问的方法
2009/12/29 PHP
浅析Mysql 数据回滚错误的解决方法
2013/08/05 PHP
PHP CURL 内存泄露问题解决方法
2015/02/12 PHP
php5.4传引用时报错问题分析
2016/01/22 PHP
PHP入门教程之表单与验证实例详解
2016/09/11 PHP
php cookie用户登录的详解及实例代码
2017/01/03 PHP
PHP魔术方法之__call与__callStatic使用方法
2017/07/23 PHP
Laravel多域名下字段验证的方法
2019/04/04 PHP
php自定义排序uasort函数示例【二维数组按指定键值排序】
2019/06/19 PHP
Javascript控制页面链接在新窗口打开具体方法
2013/08/16 Javascript
jQuery中delegate与on的用法与区别示例介绍
2013/12/20 Javascript
js验证电话号码与手机支持+86的正则表达式
2014/01/23 Javascript
JS来动态的修改url实现对url的增删查改
2014/09/05 Javascript
详解AngularJS实现表单验证
2015/12/10 Javascript
CSS3 media queries结合jQuery实现响应式导航
2016/09/30 Javascript
详解jQuery中ajax.load()方法
2017/01/25 Javascript
JS自动生成动态HTML验证码页面
2017/06/14 Javascript
[01:00:17]DOTA2-DPC中国联赛 正赛 SAG vs Dynasty BO3 第二场 1月25日
2021/03/11 DOTA
python中迭代器(iterator)用法实例分析
2015/04/29 Python
python中字典(Dictionary)用法实例详解
2015/05/30 Python
Python 爬虫学习笔记之单线程爬虫
2016/09/21 Python
Python类的动态修改的实例方法
2017/03/24 Python
Python读取MRI并显示为灰度图像实例代码
2018/01/03 Python
Python设计模式之解释器模式原理与用法实例分析
2019/01/10 Python
Python pandas.DataFrame调整列顺序及修改index名的方法
2019/06/21 Python
Python操作列表常用方法实例小结【创建、遍历、统计、切片等】
2019/10/25 Python
Python模块_PyLibTiff读取tif文件的实例
2020/01/13 Python
TensorFlow实现checkpoint文件转换为pb文件
2020/02/10 Python
python实现简单的购物程序代码实例
2020/03/03 Python
python 通过exifread读取照片信息
2020/12/24 Python
html5组织文档结构_动力节点Java学院整理
2017/07/11 HTML / CSS
求职者简历中的自我评价
2013/10/20 职场文书
校园招聘策划书
2014/01/09 职场文书
甜美蛋糕店的创业计划书模板,拿来即用!
2019/08/21 职场文书
Mysql实现主从配置和多主多从配置
2021/06/02 MySQL
html5表单的required属性使用
2021/07/07 HTML / CSS