编程 Python

Python使用urllib2模块抓取HTML页面资源的实例分享

Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

Python使用urllib2模块抓取HTML页面资源的实例分享

- Author -

larry

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

发布你的Python模块详解

Sep 15 Python

Python实现全角半角字符互转的方法

Nov 28 Python

OpenCV-Python实现轮廓检测实例分析

Jan 05 Python

python读取和保存视频文件

Apr 16 Python

Python完成毫秒级抢淘宝大单功能

Jun 06 Python

Python调用C语言的实现

Jul 26 Python

python模块hashlib(加密服务)知识点讲解

Nov 25 Python

python3读取csv文件任意行列代码实例

Jan 13 Python

pyinstaller 3.6版本通过pip安装失败的解决办法(推荐)

Jan 18 Python

Django之全局使用request.user.username的实例详解

May 14 Python

python hmac模块验证客户端的合法性

Nov 07 Python

总结python 三种常见的内存泄漏场景

Nov 20 Python

Python中字符串的格式化方法小结

May 03 #Python

Python实现约瑟夫环问题的方法

May 03 #Python

Python实现堆排序的方法详解

May 03 #Python

python web框架学习笔记

May 03 #Python

Python批量修改文本文件内容的方法

Apr 29 #Python

Python+Opencv识别两张相似图片

Mar 23 #Python

Python实现包含min函数的栈

Apr 29 #Python

You might like

php实现利用phpexcel导出数据

2013/08/24 PHP

php使用curl检测网页是否被百度收录的示例分享

2014/01/31 PHP

php compact 通过变量创建数组

2016/11/15 PHP

ThinkPHP 3.2.2实现事务操作的方法

2017/05/05 PHP

IE6下js通过css隐藏select的一个bug

2010/08/16 Javascript

javascript获取选中的文本的方法代码

2013/10/30 Javascript

IE中图片的onload事件无效问题和解决方法

2014/06/06 Javascript

js中将String转换为number以便比较

2014/07/08 Javascript

javascript实现校验文件上传控件实例

2015/04/20 Javascript

js实现浏览本地文件并显示扩展名的方法

2015/08/17 Javascript

jQuery数据类型小结(14个)

2016/01/08 Javascript

10个JavaScript中易犯小错误

2016/02/14 Javascript

第四章之BootStrap表单与图片

2016/04/25 Javascript

jQuery 3.0十大新特性

2016/07/06 Javascript

Js动态设置rem来实现移动端字体的自适应代码

2016/10/14 Javascript

vue.js实现用户评论、登录、注册、及修改信息功能

2020/05/30 Javascript

Angular4 中常用的指令入门总结

2017/06/12 Javascript

js最简单的双向绑定实例讲解

2018/01/02 Javascript

解决vue props 拿不到值的问题

2018/09/11 Javascript

jQuery实现轮播图效果demo

2020/01/11 jQuery

JavaScript遍历数组的方法代码实例

2020/01/14 Javascript

vue data变量相互赋值后被实时同步的解决步骤

2020/08/05 Javascript

python对日志进行处理的实例代码

2018/10/06 Python

python+os根据文件名自动生成文本

2019/03/21 Python

Django 配置多站点多域名的实现步骤

2019/05/17 Python

Python3 使用pillow库生成随机验证码

2019/08/26 Python

详解使用双缓存解决Canvas clearRect引起的闪屏问题

2019/04/29 HTML / CSS

Airbnb爱彼迎官网：成为爱彼迎房东，赚取收入

2019/03/14 全球购物

西班牙三叶草药房：Farmacias Trébol

2019/05/03 全球购物

如何手工释放资源

2013/12/15 面试题

高中生学习总结的自我评价范文

2013/10/13 职场文书

医学毕业生自我鉴定

2013/10/30 职场文书

酒店门卫岗位职责

2013/12/29 职场文书

入党自我评价范文

2014/02/02 职场文书

分享提高 Python 代码的可读性的技巧

2022/03/03 Python

Spring boot admin 服务监控利器详解

2022/08/05 Java/Android