Python提取网页中超链接的方法


Posted in Python onSeptember 18, 2016

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
ptyhon实现sitemap生成示例
Mar 30 Python
完美解决Python2操作中文名文件乱码的问题
Jan 04 Python
Django实现分页功能
Jul 02 Python
使用python脚本实现查询火车票工具
Jul 19 Python
详解python分布式进程
Oct 08 Python
python爬虫中多线程的使用详解
Sep 23 Python
使用Python实现正态分布、正态分布采样
Nov 20 Python
python实现二分类的卡方分箱示例
Nov 22 Python
python中的django是做什么的
Jul 31 Python
Python 利用Entrez库筛选下载PubMed文献摘要的示例
Nov 24 Python
Python Django 后台管理之后台模型属性详解
Apr 25 Python
OpenCV项目实践之停车场车位实时检测
Apr 11 Python
python解决Fedora解压zip时中文乱码的方法
Sep 18 #Python
Python自动化运维和部署项目工具Fabric使用实例
Sep 18 #Python
基于Python 的进程管理工具supervisor使用指南
Sep 18 #Python
打包发布Python模块的方法详解
Sep 18 #Python
在python的类中动态添加属性与生成对象
Sep 17 #Python
Python中字符串的处理技巧分享
Sep 17 #Python
Python中对象迭代与反迭代的技巧总结
Sep 17 #Python
You might like
PHP针对常规模板引擎中与CSS/JSON冲突的解决方法
2014/08/19 PHP
PHP合并静态文件详解
2014/11/14 PHP
ThinkPHP中redirect用法分析
2014/12/05 PHP
php中使用in_array() foreach array_search() 查找数组是否包含时的性能对比
2015/04/14 PHP
php基于Snoopy解析网页html的方法
2015/07/09 PHP
免费空间广告万能消除代码
2006/09/04 Javascript
JQuery扩展插件Validate—4设置错误提示的样式
2011/09/05 Javascript
用Javascript来生成ftp脚本的小例子
2013/07/03 Javascript
解析Javascript中中括号“[]”的多义性
2013/12/03 Javascript
JS将数字转换成三位逗号分隔的样式(示例代码)
2014/02/19 Javascript
js获取ajax返回值代码
2014/04/30 Javascript
Javascript与jQuery方法的隐藏与显示
2015/01/19 Javascript
jQuery插件StickUp实现网页导航置顶
2015/04/12 Javascript
BootStrap学习系列之Bootstrap Typeahead 组件实现百度下拉效果(续)
2016/07/07 Javascript
获取jqGrid中选择的行的数据
2016/11/30 Javascript
js的三种继承方式详解
2017/01/21 Javascript
Angular之指令Directive用法详解
2017/03/01 Javascript
Jquery-data的三种用法
2017/04/18 jQuery
AngularJS实现单一页面内设置跳转路由的方法
2017/06/28 Javascript
Angular4学习教程之DOM属性绑定详解
2018/01/04 Javascript
详解关于element级联选择器数据回显问题
2019/02/20 Javascript
JavaScript Window窗口对象属性和使用方法
2020/01/19 Javascript
python基础教程之常用运算符
2014/08/29 Python
恢复百度云盘本地误删的文件脚本(简单方法)
2017/10/21 Python
Numpy掩码式数组详解
2018/04/17 Python
Sanic框架路由用法实例分析
2018/07/16 Python
pandas dataframe添加表格框线输出的方法
2019/02/08 Python
Python3显示当前时间、计算时间差及时间加减法示例代码
2019/09/07 Python
python实现在线翻译
2020/06/18 Python
新手常见Python错误及异常解决处理方案
2020/06/18 Python
css3.0 图形构成实例练习二
2013/03/19 HTML / CSS
sort命令的作用和用法
2013/08/25 面试题
研究生自我鉴定范文
2013/10/30 职场文书
员工考勤管理制度
2015/08/06 职场文书
java基础——多线程
2021/07/03 Java/Android
MySQL利用UNION连接2个查询排序失效详解
2021/11/20 MySQL