python获取指定网页上所有超链接的方法


Posted in Python onApril 04, 2015

本文实例讲述了python获取指定网页上所有超链接的方法。分享给大家供大家参考。具体如下:

这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址

import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links

希望本文所述对大家的python程序设计有所帮助。

Python 相关文章推荐
python处理图片之PIL模块简单使用方法
May 11 Python
Django中处理出错页面的方法
Jul 15 Python
Python学习小技巧总结
Jun 10 Python
基于python代码实现简易滤除数字的方法
Jul 17 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 Python
对Python信号处理模块signal详解
Jan 09 Python
Python元组知识点总结
Feb 18 Python
python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片)
Aug 06 Python
python文字转语音的实例代码分析
Nov 12 Python
浅析python表达式4+0.5值的数据类型
Feb 26 Python
Python的PIL库中getpixel方法的使用
Apr 09 Python
pytorch 实现多个Dataloader同时训练
May 29 Python
python中字典dict常用操作方法实例总结
Apr 04 #Python
python随机生成指定长度密码的方法
Apr 04 #Python
python统计字符串中指定字符出现次数的方法
Apr 04 #Python
python使用sorted函数对列表进行排序的方法
Apr 04 #Python
python实现的简单猜数字游戏
Apr 04 #Python
python使用BeautifulSoup分页网页中超链接的方法
Apr 04 #Python
python实现分析apache和nginx日志文件并输出访客ip列表的方法
Apr 04 #Python
You might like
php 输出双引号"与单引号'的方法
2010/05/09 PHP
自定义php类(查找/修改)xml文档
2013/03/26 PHP
PHP使用get_headers函数判断远程文件是否存在的方法
2014/11/28 PHP
php通过记录IP来防止表单重复提交方法分析
2014/12/16 PHP
使用Appcan客户端自动更新PHP版本号(全)
2015/07/31 PHP
基于Laravel 多个中间件的执行顺序详解
2019/10/21 PHP
PHP 进程池与轮询调度算法实现多任务的示例代码
2019/11/26 PHP
JQuery中getJSON的使用方法
2010/12/13 Javascript
jquery选择器使用详解
2014/04/08 Javascript
JS小游戏之象棋暗棋源码详解
2014/09/25 Javascript
IE6浏览器中window.location.href无效的解决方法
2014/11/20 Javascript
javascript实现获取浏览器版本、操作系统类型
2015/01/29 Javascript
js操作滚动条事件实例
2015/01/29 Javascript
javascript中的altKey 和 Event属性大全
2015/11/06 Javascript
javascript巧用eval函数组装表单输入项为json对象的方法
2015/11/25 Javascript
jQuery鼠标悬浮链接弹出跟随图片实例代码
2016/01/08 Javascript
JS+HTML5手机开发之滚动和惯性缓动实现方法分析
2016/06/12 Javascript
微信小程序实现tab切换效果
2017/11/21 Javascript
Angular 5.x 学习笔记之Router(路由)应用
2018/04/08 Javascript
vue实现一拉到底的滑动验证
2019/07/25 Javascript
js 函数性能比较方法
2020/08/24 Javascript
[47:06]DOTA2上海特级锦标赛主赛事日 - 4 败者组第五轮 MVP.Phx VS EG第一局
2016/03/05 DOTA
使用Python进行新浪微博的mid和url互相转换实例(10进制和62进制互算)
2014/04/25 Python
在Python的Flask中使用WTForms表单框架的基础教程
2016/06/07 Python
python 计算文件的md5值实例
2017/01/13 Python
Python request设置HTTPS代理代码解析
2018/02/12 Python
python 对key为时间的dict排序方法
2018/10/17 Python
Python中Flask-RESTful编写API接口(小白入门)
2019/12/11 Python
python通过移动端访问查看电脑界面
2020/01/06 Python
Python如何使用ConfigParser读取配置文件
2020/11/12 Python
利用python绘制正态分布曲线
2021/01/04 Python
CSS3哪些新特性值得称赞
2016/03/02 HTML / CSS
推荐10个HTML5响应式框架
2016/02/25 HTML / CSS
英国最大的独立家具零售商:Furniture Village
2016/09/06 全球购物
棉花姑娘教学反思
2014/02/15 职场文书
小学班主任教育随笔
2015/08/15 职场文书