Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
发布你的Python模块详解
Sep 15 Python
Python实现全角半角字符互转的方法
Nov 28 Python
OpenCV-Python实现轮廓检测实例分析
Jan 05 Python
python读取和保存视频文件
Apr 16 Python
Python完成毫秒级抢淘宝大单功能
Jun 06 Python
Python调用C语言的实现
Jul 26 Python
python模块hashlib(加密服务)知识点讲解
Nov 25 Python
python3读取csv文件任意行列代码实例
Jan 13 Python
pyinstaller 3.6版本通过pip安装失败的解决办法(推荐)
Jan 18 Python
Django之全局使用request.user.username的实例详解
May 14 Python
python hmac模块验证客户端的合法性
Nov 07 Python
总结python 三种常见的内存泄漏场景
Nov 20 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
php实现利用phpexcel导出数据
2013/08/24 PHP
php使用curl检测网页是否被百度收录的示例分享
2014/01/31 PHP
php compact 通过变量创建数组
2016/11/15 PHP
ThinkPHP 3.2.2实现事务操作的方法
2017/05/05 PHP
IE6下js通过css隐藏select的一个bug
2010/08/16 Javascript
javascript获取选中的文本的方法代码
2013/10/30 Javascript
IE中图片的onload事件无效问题和解决方法
2014/06/06 Javascript
js中将String转换为number以便比较
2014/07/08 Javascript
javascript实现校验文件上传控件实例
2015/04/20 Javascript
js实现浏览本地文件并显示扩展名的方法
2015/08/17 Javascript
jQuery数据类型小结(14个)
2016/01/08 Javascript
10个JavaScript中易犯小错误
2016/02/14 Javascript
第四章之BootStrap表单与图片
2016/04/25 Javascript
jQuery 3.0十大新特性
2016/07/06 Javascript
Js动态设置rem来实现移动端字体的自适应代码
2016/10/14 Javascript
vue.js实现用户评论、登录、注册、及修改信息功能
2020/05/30 Javascript
Angular4 中常用的指令入门总结
2017/06/12 Javascript
js最简单的双向绑定实例讲解
2018/01/02 Javascript
解决vue props 拿不到值的问题
2018/09/11 Javascript
jQuery实现轮播图效果demo
2020/01/11 jQuery
JavaScript遍历数组的方法代码实例
2020/01/14 Javascript
vue data变量相互赋值后被实时同步的解决步骤
2020/08/05 Javascript
python对日志进行处理的实例代码
2018/10/06 Python
python+os根据文件名自动生成文本
2019/03/21 Python
Django 配置多站点多域名的实现步骤
2019/05/17 Python
Python3 使用pillow库生成随机验证码
2019/08/26 Python
详解使用双缓存解决Canvas clearRect引起的闪屏问题
2019/04/29 HTML / CSS
Airbnb爱彼迎官网:成为爱彼迎房东,赚取收入
2019/03/14 全球购物
西班牙三叶草药房:Farmacias Trébol
2019/05/03 全球购物
如何手工释放资源
2013/12/15 面试题
高中生学习总结的自我评价范文
2013/10/13 职场文书
医学毕业生自我鉴定
2013/10/30 职场文书
酒店门卫岗位职责
2013/12/29 职场文书
入党自我评价范文
2014/02/02 职场文书
分享提高 Python 代码的可读性的技巧
2022/03/03 Python
Spring boot admin 服务监控利器详解
2022/08/05 Java/Android