编程 Python

python提取页面内url列表的方法

Posted in Python onMay 25, 2015

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

python提取页面内url列表的方法

- Author -

小萝莉

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

pycharm 使用心得（七）一些实用功能介绍

Jun 06 Python

Python构造函数及解构函数介绍

Feb 26 Python

python中while循环语句用法简单实例

May 07 Python

Python机器学习算法之k均值聚类（k-means）

Feb 23 Python

python numpy 一维数组转变为多维数组的实例

Jul 02 Python

python opencv实现信用卡的数字识别

Jan 12 Python

pandas中的数据去重处理的实现方法

Feb 10 Python

python简单的三元一次方程求解实例

Apr 02 Python

Python 爬虫性能相关总结

Aug 03 Python

几款Python编译器比较与推荐(小结)

Oct 15 Python

python的dict判断key是否存在的方法

Dec 09 Python

Django权限控制的使用

Jan 07 Python

python实现批量改文件名称的方法

May 25 #Python

python基于右递归解决八皇后问题的方法

May 25 #Python

python基于urllib实现按照百度音乐分类下载mp3的方法

May 25 #Python

Python输出9＊9乘法表的方法

May 25 #Python

Python批量重命名同一文件夹下文件的方法

May 25 #Python

Python实现豆瓣图片下载的方法

May 25 #Python

深入讲解Python中面向对象编程的相关知识

May 25 #Python

You might like

php checkdate、getdate等日期时间函数操作详解

2010/03/11 PHP

php curl获取网页内容(IPV6下超时)的解决办法

2013/07/16 PHP

Thinkphp+smarty+uploadify实现无刷新上传

2015/07/30 PHP

PHP 使用二进制保存用户状态的实例

2018/01/29 PHP

PHP模版引擎原理、定义与用法实例

2019/03/29 PHP

thinkPHP+mysql+ajax实现的仿百度一下即时搜索效果详解

2019/07/15 PHP

php中关于换行的实例写法

2019/09/26 PHP

浅析jQuery EasyUI中的tree使用指南

2014/12/18 Javascript

js实现鼠标感应向下滑动隐藏菜单的方法

2015/02/20 Javascript

微信小程序 swiper组件详解及实例代码

2016/10/25 Javascript

基于js实现的限制文本框只可以输入数字

2016/12/05 Javascript

使用Xcache缓存器加速PHP网站的配置方法

2017/04/22 Javascript

推荐VSCode 上特别好用的 Vue 插件之vetur

2017/09/14 Javascript

Node使用Sequlize连接Mysql报错：Access denied for user ‘xxx’@‘localhost’

2018/01/03 Javascript

浅谈实现vue2.0响应式的基本思路

2018/02/13 Javascript

JavaScript的Object.defineProperty详解

2018/07/09 Javascript

js中getter和setter用法实例分析

2018/08/14 Javascript

解决vue组件销毁之后计时器继续执行的问题

2020/07/21 Javascript

JSON 入门教程基础篇 json入门学习笔记

2020/09/22 Javascript

[01:19:11]Ti4 循环赛第二日 NaVi.us vs iG

2014/07/11 DOTA

python Pexpect 实现输密码 scp 拷贝的方法

2019/01/03 Python

python实现多层感知器MLP（基于双月数据集）

2019/01/18 Python

对python中基于tcp协议的通信(数据传输)实例讲解

2019/07/22 Python

python tkinter库实现气泡屏保和锁屏

2019/07/29 Python

Pytorch之扩充tensor的操作

2021/03/04 Python

秘书专业自荐信范文

2013/12/26 职场文书

园林资料员岗位职责

2013/12/30 职场文书

新任教师自我鉴定

2014/02/24 职场文书

法定代表人授权委托书

2014/04/04 职场文书

学校安全责任书

2014/04/14 职场文书

处级干部反四风个人对照检查材料思想汇报

2014/09/27 职场文书

2015年乡镇工作总结范文

2015/04/22 职场文书

公司保洁员管理制度

2015/08/04 职场文书

2016年三八节红领巾广播稿

2015/12/17 职场文书

分析ZooKeeper分布式锁的实现

2021/06/30 Java/Android

Windows11 Insider Preview Build 25206今日发布更新内容汇总

2022/09/23 数码科技