python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python读取图片EXIF信息类库介绍和使用实例
Jul 10 Python
Python中的字典遍历备忘
Jan 17 Python
详解Python的迭代器、生成器以及相关的itertools包
Apr 02 Python
python中的错误处理
Apr 10 Python
pandas创建新Dataframe并添加多行的实例
Apr 08 Python
Python针对给定列表中元素进行翻转操作的方法分析
Apr 27 Python
python3.4控制用户输入与输出的方法
Oct 17 Python
PyQt5实现QLineEdit添加clicked信号的方法
Jun 25 Python
python使用turtle库绘制奥运五环
Feb 24 Python
Pycharm创建文件时自动生成文件头注释(自定义设置作者日期)
Nov 24 Python
用python批量移动文件
Jan 14 Python
python 使用Tensorflow训练BP神经网络实现鸢尾花分类
May 12 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
第二节 对象模型 [2]
2006/10/09 PHP
php中的常用魔术方法总结
2013/08/02 PHP
php中的比较运算符详解
2013/10/28 PHP
Chrome Web App开发小结
2014/09/04 PHP
php ZipArchive实现多文件打包下载实例
2019/10/31 PHP
数理公式,也可以这么唯美
2021/03/10 无线电
预加载css或javascript的js代码
2010/04/23 Javascript
Dom在ajax技术中的作用说明
2010/10/25 Javascript
Extjs4 GridPanel 的几种样式使用介绍
2013/04/18 Javascript
jQuery支持动态参数将函数绑定到事件上的方法
2015/03/17 Javascript
理解和运用JavaScript的闭包机制
2015/08/13 Javascript
ajax实现动态下拉框示例
2017/01/10 Javascript
js放到head中失效的原因与解决方法
2017/03/07 Javascript
jQuery插件HighCharts实现2D柱状图、折线图的组合多轴图效果示例【附demo源码下载】
2017/03/09 Javascript
layui文件上传实现代码
2017/05/20 Javascript
在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解
2017/09/19 NodeJs
JavaScript实现树的遍历算法示例【广度优先与深度优先】
2017/10/26 Javascript
JavaScript惰性求值的一种实现方法示例
2019/01/11 Javascript
详解ES6数组方法find()、findIndex()的总结
2020/05/12 Javascript
python实现从字典中删除元素的方法
2015/05/04 Python
在python的类中动态添加属性与生成对象
2016/09/17 Python
浅谈django model postgres的json字段编码问题
2018/01/05 Python
Python+Selenium使用Page Object实现页面自动化测试
2019/07/14 Python
Pytorch 实现权重初始化
2019/12/31 Python
CSS3实现跳动的动画效果
2016/09/12 HTML / CSS
HTML5学习心得总结(推荐)
2016/07/08 HTML / CSS
1688平价精选商城:阿里集团旗下,工厂出厂价格直销
2017/04/24 全球购物
Zipadee-Zip襁褓过渡毯:Sleeping Baby
2018/12/30 全球购物
德国大型和小型家用电器网上商店:Energeto
2019/05/15 全球购物
汽车维修与检测专业应届生求职信
2013/11/12 职场文书
预备党员思想汇报范文
2013/12/29 职场文书
2014年国庆节活动总结
2014/08/26 职场文书
委托书格式范文
2015/01/28 职场文书
2016年清明节期间群众祭祀活动工作总结
2016/04/01 职场文书
Pygame如何使用精灵和碰撞检测
2021/11/17 Python
笔记本自带的win11如何跳过联网激活?
2022/04/20 数码科技