python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
win10环境下python3.5安装步骤图文教程
Feb 03 Python
python学习——内置函数、数据结构、标准库的技巧(推荐)
Apr 18 Python
python日志logging模块使用方法分析
May 23 Python
python-django中的APPEND_SLASH实现方法
Jun 21 Python
Python 生成器,迭代,yield关键字,send()传参给yield语句操作示例
Oct 12 Python
使用Python 自动生成 Word 文档的教程
Feb 13 Python
Python reversed函数及使用方法解析
Mar 17 Python
Anaconda+VSCode配置tensorflow开发环境的教程详解
Mar 30 Python
Python sklearn中的.fit与.predict的用法说明
Jun 28 Python
celery在python爬虫中定时操作实例讲解
Nov 27 Python
详解Python函数print用法
Jun 18 Python
opencv检测动态物体的实现
Jul 21 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
利用php实现一周之内自动登录存储机制(cookie、session、localStorage)
2016/10/31 PHP
PHP mysqli事务操作常用方法分析
2017/07/22 PHP
PhpStorm连接服务器并实现自动上传功能
2020/12/09 PHP
javascript编程起步(第七课)
2007/01/10 Javascript
常用javascript表单验证汇总
2020/07/20 Javascript
Bootstrap 粘页脚效果
2016/03/28 Javascript
js实现纯前端的图片预览
2016/04/27 Javascript
微信小程序开发之选项卡(窗口底部TabBar)页面切换
2017/04/12 Javascript
解决在vue项目中,发版之后,背景图片报错,路径不对的问题
2018/03/06 Javascript
layer.alert自定义关闭回调事件的方法
2019/09/27 Javascript
webpack.DefinePlugin与cross-env区别详解
2020/02/23 Javascript
vue实现购物车案例
2020/05/30 Javascript
解决VUE mounted 钩子函数执行时 img 未加载导致页面布局的问题
2020/07/27 Javascript
浅谈JavaScript中等号、双等号、 三等号的区别
2020/08/06 Javascript
详解vue之自行实现派发与广播(dispatch与broadcast)
2021/01/19 Vue.js
python 平衡二叉树实现代码示例
2018/07/07 Python
python utc datetime转换为时间戳的方法
2019/01/15 Python
Python3.7 dataclass使用指南小结
2019/02/22 Python
Python列表的切片实例讲解
2019/08/20 Python
Pandas DataFrame中的tuple元素遍历的实现
2019/10/23 Python
django实现类似触发器的功能
2019/11/15 Python
浅谈Python描述数据结构之KMP篇
2020/09/06 Python
Python类型转换的魔术方法详解
2020/12/23 Python
matplotlib bar()实现百分比堆积柱状图
2021/02/24 Python
使用CSS3的appearance属性改变元素的外观的方法
2015/12/12 HTML / CSS
HTML5 表单验证失败的提示语问题
2017/07/13 HTML / CSS
亚马逊意大利站点:Amazon.it
2020/12/31 全球购物
Linux上比较文件的命令都有哪些
2012/02/24 面试题
户籍证明的格式
2014/01/13 职场文书
2019各种保证书范文
2019/06/24 职场文书
新手,如何业余时间安排好写作、提高写作能力?
2019/10/21 职场文书
导游词之丹东鸭绿江
2019/10/24 职场文书
php 防护xss,PHP的防御XSS注入的终极解决方案
2021/04/01 PHP
golang 实现Location跳转方式
2021/05/02 Golang
根德5570型九灯四波段立体声收音机是电子管收音机的楷模 ? 再论5570
2022/04/05 无线电
深入理解MySQL中MVCC与BufferPool缓存机制
2022/05/25 MySQL