python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python基础教程之python消息摘要算法使用示例
Feb 10 Python
几种实用的pythonic语法实例代码
Feb 24 Python
Python实现高斯函数的三维显示方法
Dec 29 Python
python画图--输出指定像素点的颜色值方法
Jul 03 Python
Python对接 xray 和微信实现自动告警
Sep 17 Python
python字符串替换re.sub()方法解析
Sep 18 Python
python字典排序的方法
Oct 12 Python
python实现ip地址的包含关系判断
Feb 07 Python
django迁移文件migrations的实现
Mar 31 Python
Python OpenCV实现测量图片物体宽度
May 27 Python
Python模拟登入的N种方式(建议收藏)
May 31 Python
python中用Scrapy实现定时爬虫的实例讲解
Jan 18 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
精致的人儿就要挑杯子喝咖啡
2021/03/03 冲泡冲煮
php实现根据字符串生成对应数组的方法
2014/09/22 PHP
通过php添加xml文档内容的方法
2015/01/23 PHP
PHP中使用imagick实现把PDF转成图片
2015/01/26 PHP
laravel5.6实现数值转换
2019/10/23 PHP
ASP.NET jQuery 实例5 (显示CheckBoxList成员选中的内容)
2012/01/13 Javascript
js实现的GridView即表头固定表体有滚动条且可滚动
2014/02/19 Javascript
jQuery prototype冲突的2种解决方法(附demo示例下载)
2016/01/21 Javascript
WebGL利用FBO完成立方体贴图效果完整实例(附demo源码下载)
2016/01/26 Javascript
nodejs修复ipa处理过的png图片
2016/02/17 NodeJs
微信小程序版翻牌小游戏
2018/01/26 Javascript
bootstrap table表格插件之服务器端分页实例代码
2018/09/12 Javascript
总结4个方面优化Vue项目
2019/02/11 Javascript
原生javascript自定义input[type=radio]效果示例
2019/08/27 Javascript
vue中watch和computed为什么能监听到数据的改变以及不同之处
2019/12/27 Javascript
js的Object.assign用法示例分析
2020/03/05 Javascript
解决vue下载后台传过来的乱码流的问题
2020/12/05 Vue.js
python使用beautifulsoup从爱奇艺网抓取视频播放
2014/01/23 Python
Python操作列表的常用方法分享
2014/02/13 Python
python文件和目录操作方法大全(含实例)
2014/03/12 Python
Python实现的redis分布式锁功能示例
2018/05/29 Python
python使用PIL给图片添加文字生成海报示例
2018/08/17 Python
python实现飞机大战
2018/09/11 Python
一百多行python代码实现抢票助手
2018/09/25 Python
python 限制函数执行时间,自己实现timeout的实例
2019/01/12 Python
给大家整理了19个pythonic的编程习惯(小结)
2019/09/25 Python
python3反转字符串的3种方法(小结)
2019/11/07 Python
PyTorch中的Variable变量详解
2020/01/07 Python
美国购买和销售礼品卡平台:Raise
2017/01/13 全球购物
道德大讲堂实施方案
2014/05/14 职场文书
党的群众路线教育实践活动剖析材料
2014/09/30 职场文书
2015年小学数学教师工作总结
2015/05/20 职场文书
2016年主题党日活动总结
2016/04/05 职场文书
Python绘制分类图的方法
2021/04/20 Python
详解CSS不定宽溢出文本适配滚动
2021/05/24 HTML / CSS
python实现简单的聊天小程序
2021/07/07 Python