Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
通过python下载FTP上的文件夹的实现代码
Feb 10 Python
python实现隐马尔科夫模型HMM
Mar 25 Python
python爬取网易云音乐评论
Nov 16 Python
python进行TCP端口扫描的实现
Dec 21 Python
pytorch 共享参数的示例
Aug 17 Python
使用OpenCV实现仿射变换—平移功能
Aug 29 Python
pytorch 状态字典:state_dict使用详解
Jan 17 Python
python生成并处理uuid的实现方式
Mar 03 Python
python+selenium 简易地疫情信息自动打卡签到功能的实现代码
Aug 22 Python
利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)
Sep 04 Python
Python全局变量与global关键字常见错误解决方案
Oct 05 Python
Pyecharts 中Geo函数常用参数的用法说明
Feb 01 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
全国FM电台频率大全 - 11 浙江省
2020/03/11 无线电
解析array splice的移除数组中指定键的值,返回一个新的数组
2013/07/02 PHP
非集成环境的php运行环境(Apache配置、Mysql)搭建安装图文教程
2016/04/12 PHP
PHP7匿名类用法分析
2016/09/26 PHP
PHP自定义函数判断是否为Get、Post及Ajax提交的方法
2017/07/27 PHP
一段好玩的JavaScript代码
2006/12/01 Javascript
用js生产批量批处理执行命令
2008/07/28 Javascript
javascript延时加载之defer测试
2012/12/28 Javascript
JavaScript实现自己的DOM选择器原理及代码
2013/03/04 Javascript
JQuery鼠标移到小图显示大图效果的方法
2015/06/10 Javascript
javascript解决IE6下hover问题的方法
2015/07/28 Javascript
jQuery实现无限往下滚动效果代码
2016/04/16 Javascript
实用又漂亮的BootstrapValidator表单验证插件
2016/05/30 Javascript
Bootstrap Table的使用总结
2016/10/08 Javascript
有趣的bootstrap走动进度条
2016/12/01 Javascript
jQuery File Upload文件上传插件使用详解
2016/12/06 Javascript
基于BootStrap与jQuery.validate实现表单提交校验功能
2016/12/22 Javascript
使用 NodeJS+Express 开发服务端的简单介绍
2017/04/07 NodeJs
vue.js项目nginx部署教程
2018/04/05 Javascript
浅谈Vue组件及组件的注册方法
2018/08/24 Javascript
Vue的H5页面唤起支付宝支付功能
2019/04/18 Javascript
Python编写的com组件发生R6034错误的原因与解决办法
2013/04/01 Python
python条件和循环的使用方法
2013/11/01 Python
Python使用minidom读写xml的方法
2015/06/03 Python
恢复百度云盘本地误删的文件脚本(简单方法)
2017/10/21 Python
python使用Plotly绘图工具绘制气泡图
2019/04/01 Python
Python参数解析模块sys、getopt、argparse使用与对比分析
2019/04/02 Python
详解基于python-django框架的支付宝支付案例
2019/09/23 Python
利用HTML5 Canvas API绘制矩形的超级攻略
2016/03/21 HTML / CSS
升职自荐书范文
2013/11/28 职场文书
商场活动策划方案
2014/01/24 职场文书
写自荐信的注意事项
2014/03/09 职场文书
公司周年庆活动方案
2014/08/25 职场文书
运动会铅球比赛加油稿
2014/09/26 职场文书
自我检讨报告
2015/01/28 职场文书
2015年大学生实习评语
2015/03/25 职场文书