Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
python选择排序算法实例总结
Jul 01 Python
详解python 字符串和日期之间转换 StringAndDate
May 04 Python
分析python动态规划的递归、非递归实现
Mar 04 Python
python3.x实现发送邮件功能
May 22 Python
Python中super函数用法实例分析
Mar 18 Python
浅析Python与Mongodb数据库之间的操作方法
Jul 01 Python
pandas中DataFrame修改index、columns名的方法示例
Aug 02 Python
Django 后台获取文件列表 InMemoryUploadedFile的例子
Aug 07 Python
Python整数与Numpy数据溢出问题解决
Sep 11 Python
Python 实现大整数乘法算法的示例代码
Sep 17 Python
Anaconda配置pytorch-gpu虚拟环境的图文教程
Apr 16 Python
Python3.9新特性详解
Oct 10 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
在WAMP环境下搭建ZendDebugger php调试工具的方法
2011/07/18 PHP
php中用socket模拟http中post或者get提交数据的示例代码
2013/08/08 PHP
PHP的一个完美GIF等比缩放类,附带去除缩放黑背景
2014/04/01 PHP
Linux中为php配置伪静态
2014/12/17 PHP
CodeIgniter自定义控制器MY_Controller用法分析
2016/01/20 PHP
php实现连接access数据库并转txt写入的方法
2017/02/08 PHP
浅谈thinkphp5 instance 的简单实现
2017/07/30 PHP
php操作redis常见方法示例【key与value操作】
2020/04/14 PHP
ModelDialog JavaScript模态对话框类代码
2011/04/17 Javascript
jquery实现多级下拉菜单的实例代码
2013/10/02 Javascript
jquery ajax中使用jsonp的限制解决方法
2013/11/22 Javascript
javascript作用域和闭包使用详解
2014/04/25 Javascript
浅谈js里面的InttoStr和StrtoInt
2016/06/14 Javascript
浅谈js中调用函数时加不加括号的问题
2016/07/28 Javascript
jsp 自动编译机制详细介绍
2016/12/01 Javascript
Scala解析Json字符串的实例详解
2017/10/11 Javascript
百度小程序自定义通用toast组件
2019/07/17 Javascript
js+html实现点名系统功能
2019/11/05 Javascript
使用 Vue-TCB 快速在 Vue 应用中接入云开发的方法
2020/02/10 Javascript
[48:56]2018DOTA2亚洲邀请赛 3.31 小组赛 A组 VG vs KG
2018/03/31 DOTA
Python操作MongoDB数据库PyMongo库使用方法
2015/04/27 Python
python如何派生内置不可变类型并修改实例化行为
2018/03/21 Python
Django添加KindEditor富文本编辑器的使用
2018/10/24 Python
Python实现定时执行任务的三种方式简单示例
2019/03/30 Python
详解python实现交叉验证法与留出法
2019/07/11 Python
NFL Game Pass欧洲:在线观看NFL比赛直播和点播,以高清质量播放
2018/08/30 全球购物
Microsoft Advertising美国:微软搜索广告
2019/05/01 全球购物
国际经济贸易专业推荐信
2013/11/06 职场文书
护士实习鉴定范文
2013/12/22 职场文书
大学军训感言400字
2014/03/11 职场文书
设计师求职信模板
2014/05/06 职场文书
考博专家推荐信
2014/05/10 职场文书
趣味运动会广播稿
2014/09/13 职场文书
学生打架检讨书
2014/10/20 职场文书
青年教师听课心得体会
2016/01/15 职场文书
提取视频中的音频 Python只需要三行代码!
2021/05/10 Python