python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
pycharm 使用心得(七)一些实用功能介绍
Jun 06 Python
Python构造函数及解构函数介绍
Feb 26 Python
python中while循环语句用法简单实例
May 07 Python
Python机器学习算法之k均值聚类(k-means)
Feb 23 Python
python numpy 一维数组转变为多维数组的实例
Jul 02 Python
python opencv实现信用卡的数字识别
Jan 12 Python
pandas中的数据去重处理的实现方法
Feb 10 Python
python简单的三元一次方程求解实例
Apr 02 Python
Python 爬虫性能相关总结
Aug 03 Python
几款Python编译器比较与推荐(小结)
Oct 15 Python
python的dict判断key是否存在的方法
Dec 09 Python
Django权限控制的使用
Jan 07 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
php checkdate、getdate等日期时间函数操作详解
2010/03/11 PHP
php curl获取网页内容(IPV6下超时)的解决办法
2013/07/16 PHP
Thinkphp+smarty+uploadify实现无刷新上传
2015/07/30 PHP
PHP 使用二进制保存用户状态的实例
2018/01/29 PHP
PHP模版引擎原理、定义与用法实例
2019/03/29 PHP
thinkPHP+mysql+ajax实现的仿百度一下即时搜索效果详解
2019/07/15 PHP
php中关于换行的实例写法
2019/09/26 PHP
浅析jQuery EasyUI中的tree使用指南
2014/12/18 Javascript
js实现鼠标感应向下滑动隐藏菜单的方法
2015/02/20 Javascript
微信小程序 swiper组件详解及实例代码
2016/10/25 Javascript
基于js实现的限制文本框只可以输入数字
2016/12/05 Javascript
使用Xcache缓存器加速PHP网站的配置方法
2017/04/22 Javascript
推荐VSCode 上特别好用的 Vue 插件之vetur
2017/09/14 Javascript
Node使用Sequlize连接Mysql报错:Access denied for user ‘xxx’@‘localhost’
2018/01/03 Javascript
浅谈实现vue2.0响应式的基本思路
2018/02/13 Javascript
JavaScript的Object.defineProperty详解
2018/07/09 Javascript
js中getter和setter用法实例分析
2018/08/14 Javascript
解决vue组件销毁之后计时器继续执行的问题
2020/07/21 Javascript
JSON 入门教程基础篇 json入门学习笔记
2020/09/22 Javascript
[01:19:11]Ti4 循环赛第二日 NaVi.us vs iG
2014/07/11 DOTA
python Pexpect 实现输密码 scp 拷贝的方法
2019/01/03 Python
python实现多层感知器MLP(基于双月数据集)
2019/01/18 Python
对python中基于tcp协议的通信(数据传输)实例讲解
2019/07/22 Python
python tkinter库实现气泡屏保和锁屏
2019/07/29 Python
Pytorch之扩充tensor的操作
2021/03/04 Python
秘书专业自荐信范文
2013/12/26 职场文书
园林资料员岗位职责
2013/12/30 职场文书
新任教师自我鉴定
2014/02/24 职场文书
法定代表人授权委托书
2014/04/04 职场文书
学校安全责任书
2014/04/14 职场文书
处级干部反四风个人对照检查材料思想汇报
2014/09/27 职场文书
2015年乡镇工作总结范文
2015/04/22 职场文书
公司保洁员管理制度
2015/08/04 职场文书
2016年三八节红领巾广播稿
2015/12/17 职场文书
分析ZooKeeper分布式锁的实现
2021/06/30 Java/Android
Windows11 Insider Preview Build 25206今日发布 更新内容汇总
2022/09/23 数码科技