python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python BeautifulSoup使用方法详解
Nov 21 Python
Python ldap实现登录实例代码
Sep 30 Python
WINDOWS 同时安装 python2 python3 后 pip 错误的解决方法
Mar 16 Python
python排序函数sort()与sorted()的区别
Sep 18 Python
python3+PyQt5 自定义窗口部件--使用窗口部件样式表的方法
Jun 26 Python
python中matplotlib条件背景颜色的实现
Sep 02 Python
keras load model时出现Missing Layer错误的解决方式
Jun 11 Python
pandas 按日期范围筛选数据的实现
Feb 20 Python
Python pandas之求和运算和非空值个数统计
Aug 07 Python
使用python创建股票的时间序列可视化分析
Mar 03 Python
基于Python实现对比Exce的工具
Apr 07 Python
Python中的 enumerate和zip详情
May 30 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
关于Intype一些小问题的解决办法
2008/03/28 PHP
一个php导出oracle库的php代码
2009/04/20 PHP
解析PHP可变函数的经典用法
2013/06/20 PHP
浅谈php命令行用法
2015/02/04 PHP
PHP实现通过正则表达式替换回调的内容标签
2015/06/15 PHP
PHP  Yii清理缓存的实现方法
2016/11/10 PHP
复制Input内容的js代码_支持所有浏览器,修正了Firefox3.5以上的问题
2010/06/21 Javascript
JavaScript面向对象(极简主义法minimalist approach)
2012/07/17 Javascript
基于JQuery的列表拖动排序实现代码
2013/10/01 Javascript
javascript scrollTop正解使用方法
2013/11/14 Javascript
七个很有意思的PHP函数
2014/05/12 Javascript
JavaScript fontsize方法入门实例(按照指定的尺寸来显示字符串)
2014/10/17 Javascript
js计算系统当前日期是星期几的方法
2016/07/14 Javascript
Angular中的$watch、$watchGroup、$watchCollection
2017/06/25 Javascript
js事件委托和事件代理案例分享
2017/07/25 Javascript
JavaScript你不知道的一些数组方法
2017/08/18 Javascript
jquery ztree实现右键收藏功能
2017/11/20 jQuery
javascript按顺序加载运行js方法
2017/12/01 Javascript
红黑树的插入详解及Javascript实现方法示例
2018/03/26 Javascript
[02:45]DOTA2英雄敌法师基础教程
2013/11/25 DOTA
[02:18]《我与DAC》之工作人员:为了热爱DOTA2的玩家们
2018/03/28 DOTA
python基础教程之字典操作详解
2014/03/25 Python
关于Python中异常(Exception)的汇总
2017/01/18 Python
pycharm新建Vue项目的方法步骤(图文)
2020/03/04 Python
Python logging模块原理解析及应用
2020/08/13 Python
见习期自我鉴定
2013/11/07 职场文书
大学生新闻专业个人自我评价
2013/11/12 职场文书
家长会主持词
2014/03/26 职场文书
写给领导的感谢信
2015/01/22 职场文书
清洁工个人工作总结
2015/03/05 职场文书
2015年环卫工作总结
2015/04/28 职场文书
给老婆的检讨书(搞笑版)
2015/05/06 职场文书
植树节新闻稿
2015/07/17 职场文书
卖车协议书范文
2016/03/23 职场文书
解析在浏览器地址栏输入一个URL后发生了什么
2021/06/21 Servers
Python实现Hash算法
2022/03/18 Python