python爬取51job中hr的邮箱


Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注三水点靠木更多精彩内容。

Python 相关文章推荐
Python3字符串学习教程
Aug 20 Python
Python selenium 三种等待方式详解(必会)
Sep 15 Python
windows下python安装paramiko模块和pycrypto模块(简单三步)
Jul 06 Python
使用Python从零开始撸一个区块链
Mar 14 Python
python 读入多行数据的实例
Apr 19 Python
利用Python如何批量更新服务器文件
Jul 29 Python
python数据处理之如何选取csv文件中某几行的数据
Sep 02 Python
Python使用进程Process模块管理资源
Mar 05 Python
利用python绘制数据曲线图的实现
Apr 09 Python
python3.8.1+selenium实现登录滑块验证功能
May 22 Python
Python安装并操作redis实现流程详解
Oct 13 Python
解决python 在for循环并且pop数组的时候会跳过某些元素的问题
Dec 11 Python
Phantomjs抓取渲染JS后的网页(Python代码)
May 13 #Python
python基于phantomjs实现导入图片
May 13 #Python
Python中遍历字典过程中更改元素导致异常的解决方法
May 12 #Python
Python安装使用命令行交互模块pexpect的基础教程
May 12 #Python
Python下载指定页面上图片的方法
May 12 #Python
Python基于二分查找实现求整数平方根的方法
May 12 #Python
python二分查找算法的递归实现方法
May 12 #Python
You might like
php桌面中心(一) 创建数据库
2007/03/11 PHP
PHP代码判断设备是手机还是平板电脑(两种方法)
2015/10/19 PHP
当jQuery1.7遇上focus方法的问题
2014/01/26 Javascript
Javascript 是你的高阶函数(高级应用)
2015/06/15 Javascript
js实现的奥运倒计时时钟效果代码
2015/12/09 Javascript
javascript实现不同颜色Tab标签切换效果
2016/04/27 Javascript
BootStrap 智能表单实战系列(二)BootStrap支持的类型简介
2016/06/13 Javascript
jquery实现拖动效果
2016/08/10 Javascript
深入理解js generator数据类型
2016/08/16 Javascript
jQuery设置和获取select、checkbox、radio的选中值方法
2017/01/01 Javascript
基于Nodejs利用socket.io实现多人聊天室
2017/02/22 NodeJs
JavaScript基础之this详解
2017/06/04 Javascript
微信小程序 动画的简单实例
2017/10/12 Javascript
vue和react等项目中更简单的实现展开收起更多等效果示例
2018/02/22 Javascript
vue.js 使用axios实现下载功能的示例
2018/03/05 Javascript
Vue axios设置访问基础路径方法
2018/09/19 Javascript
Vue数据绑定实例写法
2019/08/06 Javascript
微信小程序实现打开并下载服务器上面的pdf文件到手机
2019/09/20 Javascript
深入理解webpack process.env.NODE_ENV配置
2020/02/23 Javascript
在Python 3中实现类型检查器的简单方法
2015/07/03 Python
python在ubuntu中的几种安装方法(小结)
2017/12/08 Python
Python实现数据结构线性链表(单链表)算法示例
2019/05/04 Python
Python任意字符串转16, 32, 64进制的方法
2019/06/12 Python
Python3使用PySynth制作音乐的方法
2019/09/09 Python
Django Haystack 全文检索与关键词高亮的实现
2020/02/17 Python
Python使用os.listdir和os.walk获取文件路径
2020/05/21 Python
pytorch SENet实现案例
2020/06/24 Python
用python-webdriver实现自动填表的示例代码
2021/01/13 Python
使用placeholder属性设置input文本框的提示信息
2020/02/19 HTML / CSS
团员的自我评价
2013/12/01 职场文书
医疗器械售后服务承诺书
2014/05/21 职场文书
武侯祠导游词
2015/02/04 职场文书
信用卡工资证明范本
2015/06/19 职场文书
深入理解java.lang.String类的不可变性
2021/06/27 Java/Android
CSS 一行代码实现头像与国旗的融合
2021/10/24 HTML / CSS
vue数据字典取键值项目的字典问题
2022/04/12 Vue.js