Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
python共享引用(多个变量引用)示例代码
Dec 04 Python
Python使用SocketServer模块编写基本服务器程序的教程
Jul 12 Python
python魔法方法-自定义序列详解
Jul 21 Python
python在线编译器的简单原理及简单实现代码
Feb 02 Python
django框架使用方法详解
Jul 18 Python
Python对接 xray 和微信实现自动告警
Sep 17 Python
解决Python列表字符不区分大小写的问题
Dec 19 Python
详解Python的三种拷贝方式
Feb 11 Python
Xadmin+rules实现多选行权限方式(级联效果)
Apr 07 Python
Python尾递归优化实现代码及原理详解
Oct 09 Python
python爬取豆瓣电影排行榜(requests)的示例代码
Feb 18 Python
浅谈Python项目的服务器部署
Apr 25 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
PHP个人网站架设连环讲(三)
2006/10/09 PHP
用C/C++扩展你的PHP 为你的php增加功能
2012/09/06 PHP
php读取csv文件后,uft8 bom导致在页面上显示出现问题的解决方法
2013/08/10 PHP
解决file_get_contents无法请求https连接的方法
2013/12/17 PHP
Yii核心验证器api详解
2016/11/23 PHP
javascript实现的鼠标链接提示效果生成器代码
2007/06/28 Javascript
jquery如何判断某元素是否具备指定的样式
2013/11/05 Javascript
防止jQuery ajax Load使用缓存的方法小结
2014/02/22 Javascript
jQuery操作select下拉框的text值和value值的方法
2014/05/31 Javascript
再探JavaScript作用域
2014/09/24 Javascript
Js中使用hasOwnProperty方法检索ajax响应对象的例子
2014/12/08 Javascript
详解JavaScript正则表达式中的global属性的使用
2015/06/16 Javascript
JS模拟的Map类实现方法
2016/06/17 Javascript
NodeJS、NPM安装配置步骤(windows版本) 以及环境变量详解
2017/05/13 NodeJs
Vue2.0 实现移动端图片上传功能
2018/05/30 Javascript
layer弹出层父子页面事件相互调用方法
2018/08/17 Javascript
微信小程序chooseImage的用法(从本地相册选择图片或使用相机拍照)
2018/08/22 Javascript
浅谈让你的代码更简短,更整洁,更易读的ES6小技巧
2018/10/25 Javascript
Vue+ElementUI table实现表格分页
2019/12/14 Javascript
[01:29]Ti4循环赛第三日精彩回顾
2014/07/13 DOTA
[05:06]DOTA2-DPC中国联赛 正赛 VG vs Magma选手采访
2021/03/11 DOTA
Cython 三分钟入门教程
2009/09/17 Python
python3 实现的人人影视网站自动签到
2016/06/19 Python
Python使用sftp实现上传和下载功能(实例代码)
2017/03/14 Python
Django 简单实现分页与搜索功能的示例代码
2019/11/07 Python
tensorflow获取预训练模型某层参数并赋值到当前网络指定层方式
2020/01/24 Python
用Python制作mini翻译器的实现示例
2020/08/17 Python
Optimalprint加拿大:在线打印服务
2020/04/03 全球购物
Sony C++笔试题
2013/03/10 面试题
硅酸盐工业控制专业应届生求职信
2013/11/02 职场文书
党的群众路线教育实践活动个人对照检查材料(校长)
2014/11/05 职场文书
违反学校规则制度检讨书
2015/01/01 职场文书
2015年健康教育工作总结
2015/04/10 职场文书
上课讲话检讨书范文
2015/05/07 职场文书
小学生纪律委员竞选稿
2015/11/19 职场文书
话题作文之自信作文
2019/11/15 职场文书