Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
Python smallseg分词用法实例分析
May 28 Python
Python编程pygame模块实现移动的小车示例代码
Jan 03 Python
python实现Windows电脑定时关机
Jun 20 Python
解决pycharm无法识别本地site-packages的问题
Oct 13 Python
解决PyCharm控制台输出乱码的问题
Jan 16 Python
python 动态生成变量名以及动态获取变量的变量名方法
Jan 20 Python
纯python进行矩阵的相乘运算的方法示例
Jul 17 Python
pytorch 共享参数的示例
Aug 17 Python
python随机数分布random均匀分布实例
Nov 27 Python
Python Django搭建网站流程图解
Jun 13 Python
python 绘制场景热力图的示例
Sep 23 Python
Python四款GUI图形界面库介绍
Jun 05 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
php cli换行示例
2014/04/22 PHP
再推荐十款免费的php开发工具
2015/11/09 PHP
Yii中的relations数据关联查询及统计功能用法详解
2016/07/14 PHP
PHP中error_reporting函数用法详细介绍
2017/06/11 PHP
基于jquery的防止大图片撑破页面的实现代码(立即缩放)
2011/10/24 Javascript
JavaScript对象创建及继承原理实例解剖
2013/02/28 Javascript
js和as的稳定传值问题解决
2013/07/14 Javascript
JavaScript 32位整型无符号操作示例
2013/12/08 Javascript
js 阻止子元素响应父元素的onmouseout事件具体实现
2013/12/23 Javascript
使用JavaScript脚本判断页面是否在微信中被打开
2016/03/06 Javascript
BootStrap和jQuery相结合实现可编辑表格
2016/04/21 Javascript
Angular2平滑升级到Angular4的步骤详解
2017/03/29 Javascript
Vue报错:Uncaught TypeError: Cannot assign to read only property’exports‘ of object’#‘的解决方法
2017/06/17 Javascript
使用elementUI实现将图片上传到本地的示例
2018/09/04 Javascript
通过Nodejs搭建网站简单实现注册登录流程
2019/06/14 NodeJs
JavaScript前端开发时数值运算的小技巧
2020/07/28 Javascript
单链表反转python实现代码示例
2018/02/08 Python
Python实现繁体中文与简体中文相互转换的方法示例
2018/12/18 Python
Python适配器模式代码实现解析
2019/08/02 Python
用Python批量把文件复制到另一个文件夹的实现方法
2019/08/16 Python
Python中Unittest框架的具体使用
2019/08/27 Python
Python能做什么
2020/06/02 Python
Python类super()及私有属性原理解析
2020/06/15 Python
美国鲍勃商店:Bob’s Stores
2018/07/22 全球购物
馥绿德雅美国官方网站:Rene Furterer头皮护理专家
2019/05/01 全球购物
用C#语言写出与SQLSERVER访问时的具体过程
2013/04/16 面试题
CSS实现fullpage.js全屏滚动效果的示例代码
2021/03/24 HTML / CSS
医院总经理岗位职责
2014/02/04 职场文书
大学新生军训自我鉴定
2014/03/18 职场文书
教师个人师德总结
2015/02/06 职场文书
运动会口号霸气押韵
2015/12/24 职场文书
学术会议开幕词
2016/03/03 职场文书
nginx简单配置多个server的方法
2021/03/31 Servers
Java处理延时任务的常用几种解决方案
2022/06/01 Java/Android
苹果macOS 13开发者预览版Beta 8发布 正式版10月发布
2022/09/23 数码科技
CSS 鼠标点击拖拽效果的实现代码
2022/12/24 HTML / CSS