python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python对url格式解析的方法
May 13 Python
六个窍门助你提高Python运行效率
Jun 09 Python
在Django的上下文中设置变量的方法
Jul 20 Python
解析Python中的__getitem__专有方法
Jun 27 Python
python 通过xml获取测试节点和属性的实例
Mar 31 Python
解决tensorflow1.x版本加载saver.restore目录报错的问题
Jul 26 Python
解决Python运行文件出现out of memory框的问题
Dec 03 Python
python实现定时发送qq消息
Jan 18 Python
Python实现微信小程序支付功能
Jul 25 Python
python GUI库图形界面开发之PyQt5时间控件QTimer详细使用方法与实例
Feb 26 Python
Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)
Jul 20 Python
利用Python过滤相似文本的简单方法示例
Feb 03 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
虚拟主机中对PHP的特殊设置
2006/10/09 PHP
模板引擎Smarty深入浅出介绍
2006/12/06 PHP
PHP时间戳与日期之间转换的实例介绍
2013/04/19 PHP
PHP判断远程图片是否存在的几种方法
2014/05/04 PHP
PHP操作MySQL的mysql_fetch_* 函数的常见用法教程
2015/12/25 PHP
php实现连接access数据库并转txt写入的方法
2017/02/08 PHP
JavaScript修改css样式style
2008/04/15 Javascript
JQuery学习笔录 简单的JQuery
2012/04/09 Javascript
如何用JavaScript定义一个类
2014/09/12 Javascript
javascript中Date对象的getDay方法使用指南
2014/12/22 Javascript
2014 年最热门的21款JavaScript框架推荐
2014/12/25 Javascript
JQuery操作元素的css样式
2015/03/09 Javascript
js实现文本框输入文字个数限制代码
2015/12/25 Javascript
喜大普奔!jQuery发布 3.0 最终版
2016/06/12 Javascript
react系列从零开始_简单谈谈react
2017/07/06 Javascript
Angular2中监听数据更新的方法
2018/08/31 Javascript
基于javascript实现贪吃蛇经典小游戏
2020/04/10 Javascript
浅谈Vuex的this.$store.commit和在Vue项目中引用公共方法
2020/07/24 Javascript
原生JS实现多条件筛选
2020/08/19 Javascript
Python使用win32com实现的模拟浏览器功能示例
2017/07/13 Python
python实现Windows电脑定时关机
2018/06/20 Python
Python中sorted()排序与字母大小写的问题
2020/01/14 Python
Python Handler处理器和自定义Opener原理详解
2020/03/05 Python
在python中使用pyspark读写Hive数据操作
2020/06/06 Python
如何表示python中的相对路径
2020/07/08 Python
南非最大的花卉和送礼服务:NetFlorist
2017/09/13 全球购物
New Balance澳大利亚官网:运动鞋和健身服装
2019/02/23 全球购物
澳大利亚和新西兰最大的在线旅行社之一:Aunt Betty
2019/08/07 全球购物
P D PAOLA法国官网:西班牙著名的珠宝首饰品牌
2020/02/15 全球购物
电气工程及其自动化学生实习自我鉴定
2013/09/19 职场文书
计算机网络工程专业职业生涯规划书
2014/03/10 职场文书
教师作风整顿个人剖析材料
2014/10/10 职场文书
优秀团队申报材料
2014/12/26 职场文书
Spring整合Mybatis的全过程
2021/06/28 Java/Android
JavaWeb 入门篇:创建Web项目,Idea配置tomcat
2021/07/16 Java/Android
mysqldump进行数据备份详解
2022/07/15 MySQL