Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
使用优化器来提升Python程序的执行效率的教程
Apr 02 Python
Python访问纯真IP数据库脚本分享
Jun 29 Python
R语言 vs Python对比:数据分析哪家强?
Nov 17 Python
django manage.py扩展自定义命令方法
May 27 Python
python修改txt文件中的某一项方法
Dec 29 Python
python仿抖音表白神器
Apr 08 Python
Python利用多线程同步锁实现多窗口订票系统(推荐)
Dec 22 Python
wxpython自定义下拉列表框过程图解
Feb 14 Python
pycharm的python_stubs问题
Apr 08 Python
详解PyQt5中textBrowser显示print语句输出的简单方法
Aug 07 Python
Django与数据库交互的实现
Jun 03 Python
浅谈Python数学建模之整数规划
Jun 23 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
摩卡咖啡
2021/03/03 咖啡文化
php生成随机数或者字符串的代码
2008/09/05 PHP
PHP动态编译出现Cannot find autoconf的解决方法
2014/11/05 PHP
Nigma vs AM BO3 第二场2.13
2021/03/10 DOTA
javascript开发随笔一 preventDefault的必要
2011/11/25 Javascript
jQuery实现图片放大预览实现原理及代码
2013/09/12 Javascript
JavaScript实现快速排序的方法
2015/07/31 Javascript
Dojo获取下拉框的文本和值实例代码
2016/05/27 Javascript
总结十个Angular.js由浅入深的面试问题
2016/08/26 Javascript
xmlplus组件设计系列之列表(4)
2017/04/26 Javascript
vue 2.0封装model组件的方法
2017/08/03 Javascript
nginx配置React静态页面的方法教程
2017/11/03 Javascript
Vue 源码分析之 Observer实现过程
2018/03/29 Javascript
vue+axios 前端实现登录拦截的两种方式(路由拦截、http拦截)
2018/10/24 Javascript
聊聊Vue 中 title 的动态修改问题
2019/06/11 Javascript
layui 动态设置checbox 选中状态的例子
2019/09/02 Javascript
基于JS实现table导出Excel并保留样式
2020/05/19 Javascript
Python中的迭代器与生成器高级用法解析
2016/06/28 Python
Python 实现淘宝秒杀的示例代码
2018/01/02 Python
Python读取图片为16进制表示简单代码
2018/01/19 Python
Python面向对象class类属性及子类用法分析
2018/02/02 Python
Python基于递归算法实现的汉诺塔与Fibonacci数列示例
2018/04/18 Python
pandas获取groupby分组里最大值所在的行方法
2018/04/20 Python
用pycharm开发django项目示例代码
2019/06/13 Python
jupyter notebook 多环境conda kernel配置方式
2020/04/10 Python
django template实现定义临时变量,自定义赋值、自增实例
2020/07/12 Python
python中实现词云图的示例
2020/12/19 Python
pycharm 使用tab跳出正在编辑的括号(){}{}等问题
2021/02/26 Python
老公给老婆的道歉信
2014/01/10 职场文书
电子商务个人职业生涯规划范文
2014/02/12 职场文书
《威尼斯的小艇》教学反思
2014/02/17 职场文书
初中教师德育工作总结2015
2015/05/12 职场文书
买卖合同纠纷代理词
2015/05/25 职场文书
小学三年级数学教学反思
2016/02/16 职场文书
自荐信范文
2019/05/20 职场文书
pyqt5打包成exe可执行文件的方法
2021/05/14 Python