Python提取网页中超链接的方法


Posted in Python onSeptember 18, 2016

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
python读写文件操作示例程序
Dec 02 Python
Python中文编码那些事
Jun 25 Python
python socket多线程通讯实例分析(聊天室)
Apr 06 Python
Python的Django应用程序解决AJAX跨域访问问题的方法
May 31 Python
Python实现屏幕截图的代码及函数详解
Oct 01 Python
浅析Python中yield关键词的作用与用法
Nov 29 Python
Python实现字典的遍历与排序功能示例
Dec 23 Python
Python2和Python3之间的str处理方式导致乱码的讲解
Jan 03 Python
Python实现剪刀石头布小游戏(与电脑对战)
Dec 31 Python
Python多线程获取返回值代码实例
Feb 17 Python
详解pandas获取Dataframe元素值的几种方法
Jun 14 Python
Python安装Bs4的多种方法
Nov 28 Python
python解决Fedora解压zip时中文乱码的方法
Sep 18 #Python
Python自动化运维和部署项目工具Fabric使用实例
Sep 18 #Python
基于Python 的进程管理工具supervisor使用指南
Sep 18 #Python
打包发布Python模块的方法详解
Sep 18 #Python
在python的类中动态添加属性与生成对象
Sep 17 #Python
Python中字符串的处理技巧分享
Sep 17 #Python
Python中对象迭代与反迭代的技巧总结
Sep 17 #Python
You might like
php 8小时时间差的解决方法小结
2009/12/22 PHP
PHP中MVC模式的模板引擎开发经验分享
2011/03/23 PHP
php中通过虚代理实现延迟加载的实现代码
2011/06/10 PHP
PHP filter_var() 函数 Filter 函数
2012/04/25 PHP
php中计算程序运行时间的类代码
2012/11/03 PHP
phplist及phpmailer(组合使用)通过gmail发送邮件的配置方法
2016/03/30 PHP
JQuery中判断一个元素下面是否有内容或者有某个标签的判断代码
2012/02/02 Javascript
javascript计算当月剩余天数(天数计算器)示例代码
2014/01/09 Javascript
jQuery实现的类似淘宝网站搜索框样式代码分享
2015/08/24 Javascript
AngularJS ng-repeat数组有重复值的解决方法
2016/10/23 Javascript
javaScript中定义类或对象的五种方式总结
2016/12/04 Javascript
微信小程序实现默认第一个选中变色效果
2018/07/17 Javascript
jQuery事件blur()方法的使用实例讲解
2019/03/30 jQuery
nodejs实现日志读取、日志查找及日志刷新的方法分析
2019/05/20 NodeJs
vue + typescript + 极验登录验证的实现方法
2019/06/27 Javascript
基于JavaScript伪随机正态分布代码实例
2019/11/07 Javascript
小程序外卖订单界面的示例代码
2019/12/30 Javascript
Angular之jwt令牌身份验证的实现
2020/02/14 Javascript
[53:10]Secret vs Pain 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
[02:12]2019完美世界全国高校联赛(春季赛)报名开启
2019/03/01 DOTA
Python实现把xml或xsl转换为html格式
2015/04/08 Python
python自动翻译实现方法
2016/05/28 Python
Python基于回溯法子集树模板实现图的遍历功能示例
2017/09/05 Python
python logging日志模块以及多进程日志详解
2018/04/18 Python
selenium + python 获取table数据的示例讲解
2018/10/13 Python
在pycharm中使用git版本管理以及同步github的方法
2019/01/16 Python
python numpy数组中的复制知识解析
2020/02/03 Python
学点简单的Django之第一个Django程序的实现
2021/02/24 Python
如何手工释放资源
2013/12/15 面试题
应用数学专业求职信
2014/03/14 职场文书
学习交流会主持词
2014/04/01 职场文书
竞选卫生委员演讲稿
2014/04/28 职场文书
政治表现评语
2014/05/04 职场文书
会计专业毕业生求职信
2014/07/04 职场文书
场地使用证明模板
2014/10/25 职场文书
高中生自我评价范文2015
2015/03/03 职场文书