编程 Python

python爬取51job中hr的邮箱

Posted in Python onMay 14, 2016

本文实例为大家分享了python爬取51job中hr的邮箱具体代码，供大家参考，具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下，只能帮你们到这里了，谢谢大家的阅读，继续关注三水点靠木更多精彩内容。

python爬取51job中hr的邮箱

- Author -

lijiao

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现获取序列中最小的几个元素

Sep 25 Python

Python通过PIL获取图片主要颜色并和颜色库进行对比的方法

Mar 19 Python

Python中使用gzip模块压缩文件的简单教程

Apr 08 Python

浅谈python中scipy.misc.logsumexp函数的运用场景

Jun 23 Python

Python访问MongoDB,并且转换成Dataframe的方法

Oct 15 Python

使用pyinstaller打包PyQt4程序遇到的问题及解决方法

Jun 24 Python

解决Pytorch 训练与测试时爆显存(out of memory)的问题

Aug 20 Python

python取均匀不重复的随机数方式

Nov 27 Python

解决Django提交表单报错:CSRF token missing or incorrect的问题

Mar 13 Python

Pycharm内置终端及远程SSH工具的使用教程图文详解

Mar 19 Python

Pycharm2020.1安装无法启动问题即设置中文插件的方法

Aug 07 Python

Phantomjs抓取渲染JS后的网页（Python代码）

May 13 #Python

python基于phantomjs实现导入图片

May 13 #Python

Python中遍历字典过程中更改元素导致异常的解决方法

May 12 #Python

Python安装使用命令行交互模块pexpect的基础教程

May 12 #Python

Python下载指定页面上图片的方法

May 12 #Python

Python基于二分查找实现求整数平方根的方法

May 12 #Python

python二分查找算法的递归实现方法

May 12 #Python

You might like

PHP 超链接抓取实现代码

2009/06/29 PHP

彻底删除thinkphp3.1案例blog标签的方法

2014/12/05 PHP

jQuery 遍历json数组的实现代码

2020/09/22 Javascript

一个简单的弹性返回顶部JS代码实现介绍

2013/06/09 Javascript

javascript自然分类法算法实现代码

2013/10/11 Javascript

Jquery跳到页面指定位置的方法

2014/05/12 Javascript

jQuery中after()方法用法实例

2014/12/25 Javascript

js操作table元素实现表格行列新增、删除技巧总结

2015/11/18 Javascript

js手动播放图片实现图片轮播效果

2016/09/17 Javascript

vue的diff算法知识点总结

2018/03/29 Javascript

在layui中select更改后生效的方法

2019/09/05 Javascript

Vue axios 将传递的json数据转为form data的例子

2019/10/29 Javascript

[06:42]DOTA2每周TOP10 精彩击杀集锦vol.1

2014/06/25 DOTA

Python中用于去除空格的三个函数的使用小结

2015/04/07 Python

Python字典简介以及用法详解

2016/11/15 Python

使用Python进行QQ批量登录的实例代码

2018/06/11 Python

python实现通过队列完成进程间的多任务功能示例

2019/10/28 Python

Python-openCV读RGB通道图实例

2020/01/17 Python

python匿名函数lambda原理及实例解析

2020/02/07 Python

使用python实现飞机大战游戏

2020/03/23 Python

如何使用python切换hosts文件

2020/04/29 Python

python使用for...else跳出双层嵌套循环的方法实例

2020/05/17 Python

可视化pytorch 模型中不同BN层的running mean曲线实例

2020/06/24 Python

关于css兼容性问题及一些常见问题汇总

2016/05/03 HTML / CSS

Mytheresa英国官网：拥有160多个奢侈品品牌

2016/10/09 全球购物

专业幼师实习生自我鉴定范文

2013/12/08 职场文书

应届生自我鉴定

2013/12/11 职场文书

关于工资低的辞职信

2014/01/14 职场文书

2014国庆节演讲稿：祖国在我心中（400字）

2014/09/25 职场文书

解除劳动关系协议书2篇

2014/11/28 职场文书

行政文员岗位职责

2015/02/04 职场文书

2015年大学生党员承诺书

2015/04/27 职场文书

二审答辩状范文

2015/05/22 职场文书

信用卡收入证明范本

2015/06/12 职场文书

SQL CASE 表达式的具体使用

2022/03/21 SQL Server

Python进程间的通信之语法学习

2022/04/11 Python