python提取页面内url列表的方法


Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python实现遍历数据库并获取key的值
May 17 Python
Python 类的继承实例详解
Mar 25 Python
Python使用smtp和pop简单收发邮件完整实例
Jan 09 Python
Django中的Signal代码详解
Feb 05 Python
django初始化数据库的实例
May 27 Python
python matlibplot绘制3D图形
Jul 02 Python
调试Django时打印SQL语句的日志代码实例
Sep 12 Python
Python拆分大型CSV文件代码实例
Oct 07 Python
python图像处理模块Pillow的学习详解
Oct 09 Python
Python命名空间namespace及作用域原理解析
Jun 05 Python
PyCharm 2020.2.2 x64 下载并安装的详细教程
Oct 15 Python
python对输出的奇数偶数排序实例代码
Dec 04 Python
python实现批量改文件名称的方法
May 25 #Python
python基于右递归解决八皇后问题的方法
May 25 #Python
python基于urllib实现按照百度音乐分类下载mp3的方法
May 25 #Python
Python输出9*9乘法表的方法
May 25 #Python
Python批量重命名同一文件夹下文件的方法
May 25 #Python
Python实现豆瓣图片下载的方法
May 25 #Python
深入讲解Python中面向对象编程的相关知识
May 25 #Python
You might like
PHP转换文件夹下所有文件编码的实现代码
2013/06/06 PHP
php中opendir函数用法实例
2014/11/15 PHP
PHP连接MySQL数据的操作要点
2015/03/20 PHP
Symfony2框架创建项目与模板设置实例详解
2016/03/17 PHP
利用Ext Js生成动态树实例代码
2008/09/08 Javascript
基于jquery实现图片广告轮换效果代码
2011/07/07 Javascript
另一个javascript小测验(代码集合)
2011/07/27 Javascript
js调用activeX获取u盘序列号的代码
2011/11/21 Javascript
用Mootools获得操作索引的两种方法分享
2011/12/12 Javascript
JS页面延迟执行一些方法(整理)
2013/11/11 Javascript
关于页面嵌入swf覆盖div层的问题的解决方法
2014/02/11 Javascript
JQuery datepicker 用法详解
2015/12/25 Javascript
jQuery实现的精美平滑二级下拉菜单效果代码
2016/03/28 Javascript
Vue.js每天必学之Class与样式绑定
2016/09/05 Javascript
react-native fetch的具体使用方法
2017/11/01 Javascript
Angular实现搜索框及价格上下限功能
2018/01/19 Javascript
Vue中的混入的使用(vue mixins)
2018/06/01 Javascript
vue router导航守卫(router.beforeEach())的使用详解
2019/04/19 Javascript
[04:45]DOTA2上海特级锦标赛主赛事第四日RECAP
2016/03/06 DOTA
浅谈django model postgres的json字段编码问题
2018/01/05 Python
mac安装pytorch及系统的numpy更新方法
2018/07/26 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
2019/02/19 Python
详解python 利用echarts画地图(热力图)(世界地图,省市地图,区县地图)
2019/08/06 Python
python实现的多任务版udp聊天器功能案例
2019/11/13 Python
Python partial函数原理及用法解析
2019/12/11 Python
解决pycharm最左侧Tool Buttons显示不全的问题
2019/12/17 Python
HTML5本地存储之IndexedDB
2017/06/16 HTML / CSS
美国女孩服装购物网站:Justice
2017/03/04 全球购物
Abbott Lyon官网:女士手表、珠宝及配件
2020/12/26 全球购物
小学评语大全
2014/04/22 职场文书
2014全年工作总结
2014/11/27 职场文书
人事文员岗位职责
2015/02/04 职场文书
违纪学生保证书
2015/02/27 职场文书
2015年扫黄打非工作总结
2015/05/13 职场文书
钓鱼岛事件感想
2015/08/11 职场文书
javascript遍历对象的五种方式实例代码
2021/10/24 Javascript