python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python 变量类型及命名规则介绍
Jun 08 Python
python matplotlib画图实例代码分享
Dec 27 Python
Python+matplotlib实现华丽的文本框演示代码
Jan 22 Python
基于tensorflow加载部分层的方法
Jul 26 Python
Django中日期处理注意事项与自定义时间格式转换详解
Aug 06 Python
pandas 数据归一化以及行删除例程的方法
Nov 10 Python
使用urllib库的urlretrieve()方法下载网络文件到本地的方法
Dec 19 Python
Python3网络爬虫开发实战之极验滑动验证码的识别
Aug 02 Python
python异常处理之try finally不报错的原因
May 18 Python
解决windows上安装tensorflow时报错,“DLL load failed: 找不到指定的模块”的问题
May 20 Python
python Matplotlib数据可视化(1):简单入门
Sep 30 Python
pytorch中[..., 0]的用法说明
May 20 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
深入php var_dump()函数的详解
2013/06/05 PHP
php对csv文件的读取,写入,输出下载操作详解
2013/08/10 PHP
深入分析PHP引用(&)
2014/09/04 PHP
浅谈COOKIE和SESSION区别
2015/07/19 PHP
Zend Framework教程之Resource Autoloading用法实例
2016/03/08 PHP
PHP获取客户端及服务器端IP的封装类
2016/07/21 PHP
PHP实现文字写入图片功能
2019/02/18 PHP
JS 统计时间
2021/03/09 Javascript
js iframe跨域访问(同主域/非同主域)分别深入介绍
2013/01/24 Javascript
jQuery 三击事件实现代码
2013/09/11 Javascript
基于JQuery实现的Select级联
2014/01/27 Javascript
js调试工具console.log()方法查看js代码的执行情况
2014/08/08 Javascript
JavaScript中的异常捕捉介绍
2014/12/31 Javascript
jQuery之DOM对象和jQuery对象的转换与区别分析
2015/01/08 Javascript
Node.js中的process.nextTick使用实例
2015/06/25 Javascript
jquery中cookie用法实例详解(获取,存储,删除等)
2016/01/04 Javascript
JSON对象 详解及实例代码
2016/10/18 Javascript
基于Bootstrap框架菜鸟入门教程(推荐)
2017/09/17 Javascript
关于ckeditor在bootstrap中modal中弹框无法输入的解决方法
2019/09/11 Javascript
Windows下安装python MySQLdb遇到的问题及解决方法
2017/03/16 Python
Python编程pygal绘图实例之XY线
2017/12/09 Python
Python设计模式之代理模式简单示例
2018/01/09 Python
详解tensorflow实现迁移学习实例
2018/02/10 Python
django开发post接口简单案例,获取参数值的方法
2018/12/11 Python
用Python解决x的n次方问题
2019/02/08 Python
在Python中使用MySQL--PyMySQL的基本使用方法
2019/11/19 Python
python中time.ctime()实例用法
2021/02/03 Python
css3的过滤效果简单实例
2016/08/03 HTML / CSS
NFL墨西哥官方商店:Tienda NFL
2017/11/28 全球购物
美国购买韩国护肤和美容产品网站:Althea Korea
2020/11/16 全球购物
学校运动会报道稿
2014/09/23 职场文书
个人自查自纠材料
2014/10/14 职场文书
2015年校本培训工作总结
2015/07/24 职场文书
安全教育主题班会教案
2015/08/12 职场文书
铁拳制作人赞《铁拳7》老头环Mod:制作精良 但别弄了
2022/04/03 其他游戏
win10以太网连接不上怎么办?Win10连接以太网详细教程
2022/04/08 数码科技