Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
Python中处理字符串之endswith()方法的使用简介
May 18 Python
详解使用python的logging模块在stdout输出的两种方法
May 17 Python
Python如何生成树形图案
Jan 03 Python
Python中修改字符串的四种方法
Nov 02 Python
利用Python如何实现一个小说网站雏形
Nov 23 Python
Python二叉树的镜像转换实现方法示例
Mar 06 Python
使用PYTHON解析Wireshark的PCAP文件方法
Jul 23 Python
python 爬虫如何实现百度翻译
Nov 16 Python
在python中对于bool布尔值的取反操作
Dec 11 Python
tensorflow学习笔记之tfrecord文件的生成与读取
Mar 31 Python
python图片灰度化处理的几种方法
Jun 23 Python
baselines示例程序train_cartpole.py的ImportError
May 20 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
使用数据库保存session的方法
2006/10/09 PHP
php header()函数使用说明
2008/07/10 PHP
PHP 地址栏信息的获取代码
2009/01/07 PHP
微信公众平台开发(五) 天气预报功能开发
2016/12/03 PHP
php中Redis的应用--消息传递
2017/03/28 PHP
tp5(thinkPHP5)操作mongoDB数据库的方法
2018/01/20 PHP
Laravel ORM 数据model操作教程
2019/10/21 PHP
JS中彻底删除JSON对象组成的数组中的元素
2020/09/22 PHP
取得传值的函数
2006/10/27 Javascript
ExtJS 工具栏 分页事件参数
2010/03/05 Javascript
鼠标移动到图片名上,显示图片的简单实例
2013/07/14 Javascript
jquery提示效果实例分析
2014/11/25 Javascript
JavaScipt中栈的实现方法
2016/02/17 Javascript
layui前段框架日期控件使用方法详解
2017/05/19 Javascript
jQuery实现table中两列CheckBox只能选中一个的示例
2017/09/22 jQuery
node app 打包工具pkg的具体使用
2019/01/17 Javascript
Python 的 with 语句详解
2014/06/13 Python
Python获取网页上图片下载地址的方法
2015/03/11 Python
Python实现自动登录百度空间的方法
2017/06/10 Python
Django 路由控制的实现代码
2018/11/08 Python
Flask框架请求钩子与request请求对象用法实例分析
2019/11/07 Python
Python基于yield遍历多个可迭代对象
2020/03/12 Python
Python参数传递机制传值和传引用原理详解
2020/05/22 Python
如何对python的字典进行排序
2020/06/19 Python
CSS3轻松实现清新 Loading 效果的简单实例
2016/06/06 HTML / CSS
Tory Burch美国官方网站:美国时尚生活品牌
2016/08/01 全球购物
德国内衣、泳装和睡衣网上商店:Bigsize Dessous
2018/07/09 全球购物
澳大利亚礼品篮网站:Macarthur Baskets
2019/10/14 全球购物
大专生自我鉴定范文
2013/10/01 职场文书
经理职责范文
2013/11/08 职场文书
行政执法作风整顿剖析材料
2014/10/11 职场文书
玩手机检讨书1000字
2014/10/20 职场文书
计算机专业自荐信
2015/03/05 职场文书
2015年社区综治宣传月活动总结
2015/03/25 职场文书
解决hive中导入text文件遇到的坑
2021/04/07 Python
SpringBoot中使用Redis作为全局锁示例过程
2022/03/24 Java/Android