python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python 流程控制实例代码
Sep 25 Python
Python数据结构与算法之列表(链表,linked list)简单实现
Oct 30 Python
python实现媒体播放器功能
Feb 11 Python
Python cookbook(数据结构与算法)对切片命名清除索引的方法
Mar 13 Python
Python自定义装饰器原理与用法实例分析
Jul 16 Python
Python异常的检测和处理方法
Oct 26 Python
Python实现批量修改图片格式和大小的方法【opencv库与PIL库】
Dec 03 Python
通过python检测字符串的字母
Feb 18 Python
opencv python在视屏上截图功能的实现
Mar 05 Python
使用PyWeChatSpy自动回复微信拍一拍功能的实现代码
Jul 02 Python
Pytorch损失函数nn.NLLLoss2d()用法说明
Jul 07 Python
python将YUV420P文件转PNG图片格式的两种方法
Jan 22 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
获取PHP警告错误信息的解决方法
2013/06/03 PHP
PHP基于工厂模式实现的计算器实例
2015/07/16 PHP
php实现URL加密解密的方法
2016/11/17 PHP
PHP实现的分页类定义与用法示例
2017/07/05 PHP
phpstudy的php版本自由修改的方法
2017/10/18 PHP
Laravel框架路由和控制器的绑定操作方法
2018/06/12 PHP
thinkPHP+LayUI 流加载实现功能
2019/09/27 PHP
laravel-admin 管理平台获取当前登陆用户信息的例子
2019/10/08 PHP
javascript的对话框详解与参数
2007/03/08 Javascript
jquery select(列表)的操作(取值/赋值)
2011/03/16 Javascript
javascript将数组插入到另一个数组中的代码
2013/01/10 Javascript
js解析与序列化json数据(三)json的解析探讨
2013/02/01 Javascript
当jQuery1.7遇上focus方法的问题
2014/01/26 Javascript
详解JavaScript中循环控制语句的用法
2015/06/03 Javascript
jQuery简单注册和禁用全局事件的方法
2016/07/25 Javascript
关于Jquery中的bind(),on()绑定事件方式总结
2016/10/26 Javascript
JS实现闭包中的沙箱模式示例
2017/09/07 Javascript
JavaScript实现轮播图效果
2020/10/30 Javascript
python命令行参数解析OptionParser类用法实例
2014/10/09 Python
PyCharm 无法 import pandas 程序卡住的解决方式
2020/03/09 Python
Python用Jira库来操作Jira
2020/12/28 Python
python math模块的基本使用教程
2021/01/16 Python
加拿大领先的优质厨具产品在线购物网站:Golda’s Kitchen
2017/11/17 全球购物
智能室内花园:Click & Grow
2021/01/29 全球购物
《观舞记》教学反思
2014/04/16 职场文书
社会实践活动总结范文
2014/07/03 职场文书
市贸粮局召开党的群众路线教育实践活动总结大会新闻稿
2014/10/21 职场文书
周年庆典答谢词
2015/01/20 职场文书
2015年餐厅服务员工作总结
2015/04/23 职场文书
大学生活委员竞选稿
2015/11/21 职场文书
该怎么书写道歉信?
2019/07/03 职场文书
导游词之平津战役纪念馆
2019/11/04 职场文书
详解Node.js如何处理ES6模块
2021/05/15 Javascript
Python语言中的数据类型-序列
2022/02/24 Python
详解Python中__new__方法的作用
2022/03/31 Python
Spring Boot配合PageHelper优化大表查询数据分页
2022/04/20 Java/Android