Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
Python读取Excel的方法实例分析
Jul 11 Python
Python聚类算法之DBSACN实例分析
Nov 20 Python
Flask数据库迁移简单介绍
Oct 24 Python
使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”
Mar 23 Python
对命令行模式与python交互模式介绍
May 12 Python
对numpy Array [: ,] 的取值方法详解
Jul 02 Python
python占位符输入方式实例
May 27 Python
python使用socket 先读取长度,在读取报文内容示例
Sep 26 Python
使用Python脚本从文件读取数据代码实例
Jan 19 Python
Python多线程Threading、子线程与守护线程实例详解
Mar 24 Python
JAVA SWT事件四种写法实例解析
Jun 05 Python
简单且有用的Python数据分析和机器学习代码
Jul 02 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
php实现按指定大小等比缩放生成上传图片缩略图的方法
2014/12/15 PHP
php采集中国代理服务器网的方法
2015/06/16 PHP
php中目录操作opendir()、readdir()及scandir()用法示例
2019/06/08 PHP
JavaScript Event学习第七章 事件属性
2010/02/07 Javascript
关于UTF-8的客户端用AJAX方式获取GB2312的服务器端乱码问题的解决办法
2010/11/30 Javascript
JavaScript面向对象程序设计三 原型模式(上)
2011/12/21 Javascript
js实现动态添加、删除行、onkeyup表格求和示例
2013/08/18 Javascript
jQuery获得内容和属性示例代码
2014/01/16 Javascript
js获取和设置属性的方法
2014/02/20 Javascript
IE6中链接A的href为javascript协议时不在当前页面跳转
2014/06/05 Javascript
分析了一下JQuery中的extend方法实现原理
2015/02/27 Javascript
跟我学习javascript的隐式强制转换
2015/11/16 Javascript
JavaScript小技巧整理篇(非常全)
2016/01/26 Javascript
详解JavaScript中双等号引起的隐性类型转换
2016/05/30 Javascript
JS对大量数据进行多重过滤的方法
2016/11/04 Javascript
Javascript 实现放大镜效果实例详解
2016/12/03 Javascript
超全面的JavaScript开发规范(推荐)
2017/01/21 Javascript
PHP自动加载autoload和命名空间的应用小结
2017/12/01 Javascript
微信小程序开发之改变data中数组或对象的某一属性值
2018/07/05 Javascript
Vue中div contenteditable 的光标定位方法
2018/08/25 Javascript
vue解决使用webpack打包后keep-alive不生效的方法
2018/09/01 Javascript
vue实现滑动到底部加载更多效果
2020/10/27 Javascript
p5.js实现动态图形临摹
2019/10/23 Javascript
微信小程序开发(三):返回上一级页面并刷新操作示例【页面栈】
2020/06/01 Javascript
简单分析Python中用fork()函数生成的子进程
2015/05/04 Python
Scrapy框架CrawlSpiders的介绍以及使用详解
2017/11/29 Python
对numpy中布尔型数组的处理方法详解
2018/04/17 Python
澳大利亚牛仔裤商店:Just Jeans
2016/10/13 全球购物
中国高端鲜花第一品牌:roseonly(一生只送一人)
2017/02/12 全球购物
中国高端家电购物商城:顺电
2018/03/04 全球购物
西班牙三叶草药房:Farmacias Trébol
2019/05/03 全球购物
大三学习计划书范文
2014/05/02 职场文书
《中国梦我的梦》中学生演讲稿
2014/08/20 职场文书
告知书格式
2015/07/01 职场文书
解决goland 导入项目后import里的包报红问题
2021/05/06 Golang
给numpy.array增加维度的超简单方法
2021/06/02 Python