Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
Python中random模块用法实例分析
May 19 Python
python获取外网IP并发邮件的实现方法
Oct 01 Python
Python将DataFrame的某一列作为index的方法
Apr 08 Python
python斐波那契数列的计算方法
Sep 27 Python
对python周期性定时器的示例详解
Feb 19 Python
Django框架搭建的简易图书信息网站案例
May 25 Python
Python面向对象封装操作案例详解 II
Jan 02 Python
Ubuntu16.04安装python3.6.5步骤详解
Jan 10 Python
Python JSON编解码方式原理详解
Jan 20 Python
Python3 集合set入门基础
Feb 10 Python
使用jupyter notebook运行python和R的步骤
Aug 13 Python
浅谈Python 中的复数问题
May 19 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
在laravel中使用Symfony的Crawler组件分析HTML
2017/06/19 PHP
PHP后台备份MySQL数据库的源码实例
2019/03/18 PHP
优化JavaScript脚本的性能的几个注意事项
2006/12/22 Javascript
Vue.js每天必学之指令系统与自定义指令
2016/09/07 Javascript
AngularJS学习笔记(三)数据双向绑定的简单实例
2016/11/08 Javascript
JavaScript中如何使用cookie实现记住密码功能及cookie相关函数介绍
2016/11/10 Javascript
jquery实现轮播图效果
2017/02/13 Javascript
js 获取今天以及过去日期
2017/04/11 Javascript
Vue.js中轻松解决v-for执行出错的三个方案
2017/06/09 Javascript
JS跳转手机站url的若干注意事项
2017/10/18 Javascript
利用js将ajax获取到的后台数据动态加载至网页中的方法
2018/08/08 Javascript
JS实现的简单分页功能示例
2018/08/23 Javascript
详解如何用webpack4从零开始构建react开发环境
2019/01/27 Javascript
layer.confirm点击第一个按钮关闭弹出框的方法
2019/09/09 Javascript
解决layer.confirm选择完之后消息框不消失的问题
2019/09/16 Javascript
npx create-react-app xxx创建项目报错的解决办法
2020/02/17 Javascript
解决vuex改变了state的值,但是页面没有更新的问题
2020/11/12 Javascript
python实现人人网登录示例分享
2014/01/19 Python
python更新列表的方法
2015/07/28 Python
Python数据结构之哈夫曼树定义与使用方法示例
2018/04/22 Python
对python Tkinter Text的用法详解
2018/10/11 Python
pandas 选取行和列数据的方法详解
2019/08/08 Python
Python按照list dict key进行排序过程解析
2020/04/04 Python
css3圆角边框和边框阴影示例
2014/05/05 HTML / CSS
美国花布包包品牌:Vera Bradley
2017/08/11 全球购物
美国性感内衣店:Yandy
2018/06/12 全球购物
自我鉴定的范文
2013/10/03 职场文书
大学总结自我鉴定
2014/01/18 职场文书
农业局党的群众路线教育实践活动整改方案
2014/09/20 职场文书
单位婚育证明范本
2014/11/21 职场文书
2016年秋季运动会加油稿
2015/12/21 职场文书
幼儿教师师德培训心得体会
2016/01/09 职场文书
学校学习型党组织建设心得体会
2019/06/21 职场文书
go 实现简易端口扫描的示例
2021/05/22 Golang
python基础之错误和异常处理
2021/10/24 Python
java高级用法JNA强大的Memory和Pointer
2022/04/19 Java/Android