python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
python使用urllib模块和pyquery实现阿里巴巴排名查询
Jan 16 Python
python进阶教程之循环相关函数range、enumerate、zip
Aug 30 Python
使用Python的内建模块collections的教程
Apr 28 Python
Python实现文件复制删除
Apr 19 Python
Python中的FTP通信模块ftplib的用法整理
Jul 08 Python
浅谈python 线程池threadpool之实现
Nov 17 Python
VTK与Python实现机械臂三维模型可视化详解
Dec 13 Python
Python3 Tkinter选择路径功能的实现方法
Jun 14 Python
python3 tcp的粘包现象和解决办法解析
Dec 09 Python
如何使用Cython对python代码进行加密
Jul 08 Python
python中requests库+xpath+lxml简单使用
Apr 29 Python
利用Python实现模拟登录知乎
May 25 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
Dedecms常用函数解析
2008/02/01 PHP
PHP中error_reporting()函数的用法(修改PHP屏蔽错误)
2011/07/01 PHP
采用PHP函数memory_get_usage获取PHP内存清耗量的方法
2011/12/06 PHP
PHP中批量生成静态html(命令行下运行PHP)
2014/04/19 PHP
php分页原理 分页代码 分页类制作教程
2016/09/23 PHP
基于Codeigniter框架实现的student信息系统站点动态发布功能详解
2017/03/23 PHP
Laravel框架实现抢红包功能示例
2019/10/31 PHP
在IE上直接编辑网页内容的js代码(IE地址栏js)
2009/04/27 Javascript
ext 代码生成器
2009/08/07 Javascript
js 分栏效果实现代码
2009/08/29 Javascript
Prototype源码浅析 Enumerable部分之each方法
2012/01/16 Javascript
Select标签下拉列表二级联动级联实例代码
2014/02/07 Javascript
jQuery实现一个简单的验证码功能
2017/06/26 jQuery
JS 实现缓存算法的示例(FIFO/LRU)
2018/03/20 Javascript
Element Input组件分析小结
2018/10/11 Javascript
详解Vue-Router源码分析路由实现原理
2019/05/15 Javascript
详解微信小程序开发(项目从零开始)
2019/06/06 Javascript
Python单体模式的几种常见实现方法详解
2017/07/28 Python
Python实现字符串与数组相互转换功能示例
2017/09/22 Python
python3中获取文件当前绝对路径的两种方法
2018/04/26 Python
python使用正则表达式来获取文件名的前缀方法
2018/10/21 Python
Python实现多态、协议和鸭子类型的代码详解
2019/05/05 Python
基于python 等频分箱qcut问题的解决
2020/03/03 Python
浅谈selenium如何应对网页内容需要鼠标滚动加载的问题
2020/03/14 Python
使用Python对Dicom文件进行读取与写入的实现
2020/04/20 Python
Tensorflow中的降维函数tf.reduce_*使用总结
2020/04/20 Python
python中wx模块的具体使用方法
2020/05/15 Python
在keras里面实现计算f1-score的代码
2020/06/15 Python
美国流行背包品牌:JanSport(杰斯伯)
2018/03/02 全球购物
Theflamel意大利:女士奢华服装、鞋子和配件
2020/01/11 全球购物
财务管理专业自荐书
2014/09/02 职场文书
2014年变电站工作总结
2014/12/19 职场文书
2015年农村党员公开承诺事项
2015/04/28 职场文书
少儿励志名言(80句)
2019/08/14 职场文书
关于PHP数组迭代器的使用方法实例
2021/11/17 PHP
Valheim服务器 Mod修改安装教程 【ValheimPlus】
2022/12/24 Servers