Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
python解析中国天气网的天气数据
Mar 21 Python
python通过apply使用元祖和列表调用函数实例
May 26 Python
python3使用PyMysql连接mysql数据库实例
Feb 07 Python
Python反射用法实例简析
Dec 22 Python
如何实现删除numpy.array中的行或列
May 08 Python
解决PyCharm不运行脚本,而是运行单元测试的问题
Jan 17 Python
详解Python安装tesserocr遇到的各种问题及解决办法
Mar 07 Python
Python中list的交、并、差集获取方法示例
Aug 01 Python
python装饰器代替set get方法实例
Dec 19 Python
python正则表达式实例代码
Mar 03 Python
python由已知数组快速生成新数组的方法
Apr 08 Python
Python实现将多张图片合成MP4视频并加入背景音乐
Apr 28 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
解析php中const与define的应用区别
2013/06/18 PHP
php判断类是否存在函数class_exists用法分析
2014/11/14 PHP
基于jquery的让页面控件不可用的实现代码
2010/04/27 Javascript
event对象获取方法总结在google浏览器下测试
2013/11/03 Javascript
15个jquery常用方法、小技巧分享
2015/01/13 Javascript
ECMAScript6函数剩余参数(Rest Parameters)
2015/06/12 Javascript
jQuery实现定位滚动条位置
2016/08/05 Javascript
JS中script标签defer和async属性的区别详解
2016/08/12 Javascript
JavaScript实现url参数转成json形式
2016/09/25 Javascript
用自定义图片代替原生checkbox实现全选,删除以及提交的方法
2016/10/18 Javascript
巧用Vue.js+Vuex制作专门收藏微信公众号的app
2016/11/03 Javascript
jQuery简单判断值是否存在于数组中的方法示例
2018/04/17 jQuery
微信小程序项目实践之主页tab选项实现
2018/07/18 Javascript
解决layui中table异步数据请求不支持自定义返回数据格式的问题
2018/08/19 Javascript
JS函数内部属性之arguments和this实例解析
2018/10/07 Javascript
基于mpvue小程序使用echarts画折线图的方法示例
2019/04/24 Javascript
javascript面向对象三大特征之多态实例详解
2019/07/24 Javascript
[00:43]拉比克至宝魔导师密钥展示
2018/12/20 DOTA
python翻译软件实现代码(使用google api完成)
2013/11/26 Python
记录Django开发心得
2014/07/16 Python
Python读取mp3中ID3信息的方法
2015/03/05 Python
Python中的高级数据结构详解
2015/03/27 Python
Python通过matplotlib画双层饼图及环形图简单示例
2017/12/15 Python
查看python下OpenCV版本的方法
2018/08/03 Python
Python代码打开本地.mp4格式文件的方法
2019/01/03 Python
Python解析json代码实例解析
2019/11/25 Python
英国顶级水晶珠宝零售商之一:Tresor Paris
2019/04/27 全球购物
人力资源管理专业毕业生推荐信
2013/11/07 职场文书
营销专业应届生求职信
2013/11/26 职场文书
舞蹈专业求职信
2014/06/13 职场文书
新教师培训心得体会
2014/09/02 职场文书
2015年小学生自我评价范文
2015/03/03 职场文书
企业财务总监岗位职责
2015/04/03 职场文书
导游词之沈阳清昭陵
2019/12/28 职场文书
Python编写可视化界面的全过程(Python+PyCharm+PyQt)
2021/05/17 Python
Win Server2016远程桌面如何允许多用户同时登录
2022/06/10 Servers