python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python urllib模块urlopen()与urlretrieve()详解
Nov 01 Python
利用python爬取软考试题之ip自动代理
Mar 28 Python
python中列表和元组的区别
Dec 18 Python
利用Opencv中Houghline方法实现直线检测
Feb 11 Python
python画图系列之个性化显示x轴区段文字的实例
Dec 13 Python
Python的matplotlib绘图如何修改背景颜色的实现
Jul 16 Python
Python使用py2neo操作图数据库neo4j的方法详解
Jan 13 Python
在tensorflow中设置保存checkpoint的最大数量实例
Jan 21 Python
如何在Django中使用聚合的实现示例
Mar 23 Python
如何快速理解python的垃圾回收机制
Sep 01 Python
利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)
Sep 04 Python
Keras在mnist上的CNN实践,并且自定义loss函数曲线图操作
May 25 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
缅甸的咖啡简史
2021/03/04 咖啡文化
php日历[测试通过]
2008/03/27 PHP
PHP has encountered an Access Violation at 7C94BD02解决方法
2009/08/24 PHP
DedeCMS dede_channeltype表字段注释
2010/04/07 PHP
php加密解密函数authcode的用法详细解析
2013/10/28 PHP
PHP Web木马扫描器代码分享
2015/09/06 PHP
Zend Framework入门教程之Zend_Mail用法示例
2016/12/08 PHP
javascript CSS画图之基础篇
2009/07/29 Javascript
javascript自启动函数的问题探讨
2013/10/05 Javascript
JS冒泡事件的快速解决方法
2013/12/16 Javascript
JS利用cookie记忆当前位置的防刷新导航效果
2015/10/15 Javascript
jQuery使用经验小技巧(推荐)
2016/05/31 Javascript
JS中mouseover和mouseout多次触发问题如何解决
2016/06/06 Javascript
js严格模式总结(分享)
2016/08/22 Javascript
基于JavaScript实现移动端无限加载分页
2017/03/27 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
Javascript Promise用法详解
2018/05/10 Javascript
用原生JS实现爱奇艺首页导航栏代码实例
2019/09/19 Javascript
layui的数据表格+springmvc实现搜索功能的例子
2019/09/28 Javascript
[03:49]2016完美“圣”典风云人物:AMS专访
2016/12/06 DOTA
Python类定义和类继承详解
2015/05/08 Python
Linux系统(CentOS)下python2.7.10安装
2018/09/26 Python
python dataframe向下向上填充,fillna和ffill的方法
2018/11/28 Python
python实现无边框进度条的实例代码
2020/12/30 Python
pycharm进入时每次都是insert模式的解决方式
2021/02/05 Python
纯CSS3发光分享按钮的实现教程
2014/09/06 HTML / CSS
全球性的奢侈品梦工厂:Forzieri(福喜利)
2019/02/20 全球购物
Trip.com澳大利亚:在线旅行社
2019/12/01 全球购物
投标单位介绍信
2014/01/09 职场文书
运动会广播稿20字
2014/02/18 职场文书
社区服务活动小结
2014/07/08 职场文书
迟到检讨书
2015/01/26 职场文书
2015年人力资源部工作总结
2015/04/30 职场文书
纯CSS实现酷炫的霓虹灯效果
2021/04/13 HTML / CSS
Python图片处理之图片裁剪教程
2021/05/27 Python
如何使用Python提取Chrome浏览器保存的密码
2021/06/09 Python