Python爬虫获取页面所有URL链接过程详解


Posted in Python onJune 04, 2020

如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。

什么是Beautiful Soup?

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快。

全部代码:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接:Python爬虫获取网页上的链接,通过beautifulsoup的findall()方法对匹配的标签进行查找。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python为tornado添加recaptcha验证码功能
Feb 26 Python
python提取字典key列表的方法
Jul 11 Python
Python编程中字符串和列表的基本知识讲解
Oct 14 Python
python数据结构之链表的实例讲解
Jul 25 Python
详解配置Django的Celery异步之路踩坑
Nov 25 Python
python 提取tuple类型值中json格式的key值方法
Dec 31 Python
pandas ix &iloc &loc的区别
Jan 10 Python
Python+OpenCV图片局部区域像素值处理详解
Jan 23 Python
Python实现打印实心和空心菱形
Nov 23 Python
python装饰器相当于函数的调用方式
Dec 27 Python
matplotlib运行时配置(Runtime Configuration,rc)参数rcParams解析
Jan 05 Python
python Tkinter模块使用方法详解
Apr 07 Python
Python中的全局变量如何理解
Jun 04 #Python
使用OpenCV获取图片连通域数量,并用不同颜色标记函
Jun 04 #Python
Python urllib2运行过程原理解析
Jun 04 #Python
Python如何生成xml文件
Jun 04 #Python
基于python代码批量处理图片resize
Jun 04 #Python
Python脚本如何在bilibili中查找弹幕发送者
Jun 04 #Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 #Python
You might like
社区(php&&mysql)五
2006/10/09 PHP
PHP实现图片压缩的两则实例
2014/07/19 PHP
跨浏览器PHP下载文件名中的中文乱码问题解决方法
2015/03/05 PHP
PHP使用php-resque库配合Redis实现MQ消息队列的教程
2016/06/29 PHP
jQuery 获取对象 根据属性、内容匹配, 还有表单元素匹配
2010/05/31 Javascript
jquery 单引号和双引号的区别及使用注意
2013/07/31 Javascript
页面按钮禁用与解除禁用的方法
2014/02/19 Javascript
在JavaScript中判断整型的N种方法示例介绍
2014/06/18 Javascript
JS生成某个范围的随机数【四种情况详解】
2016/04/20 Javascript
JQuery EasyUI Layout 在from布局自适应窗口大小的实现方法
2016/05/28 Javascript
js检查是否关闭浏览器的方法
2016/08/02 Javascript
js 定位到某个锚点的方法
2016/11/19 Javascript
JS正则表达式修饰符global(/g)用法分析
2016/12/27 Javascript
NodeJS实现图片上传代码(Express)
2017/06/30 NodeJs
Angular4.x通过路由守卫进行路由重定向实现根据条件跳转到相应的页面(推荐)
2018/05/10 Javascript
使用Vue 实现滑动验证码功能
2019/06/27 Javascript
jQuery子选择器与可见性选择器实例分析
2019/06/28 jQuery
解决vue语法会有延迟加载显现{{xxx}}的问题
2019/11/14 Javascript
js实现盒子滚动动画效果
2020/08/09 Javascript
[01:02:48]2018DOTA2亚洲邀请赛小组赛 A组加赛 Newbee vs Liquid
2018/04/03 DOTA
python数据结构树和二叉树简介
2014/04/29 Python
pandas object格式转float64格式的方法
2018/04/10 Python
详解Python3 中hasattr()、getattr()、setattr()、delattr()函数及示例代码数
2018/04/18 Python
Python实现合并同一个文件夹下所有txt文件的方法示例
2018/04/26 Python
PyQt QCombobox设置行高的方法
2019/06/20 Python
python django 原生sql 获取数据的例子
2019/08/14 Python
基于python操作ES实例详解
2019/11/16 Python
python 如何用urllib与服务端交互(发送和接收数据)
2021/03/04 Python
Myprotein葡萄牙官方网站:英国优质运动营养品牌
2016/09/12 全球购物
全球最大的网上自行车商店:Chain Reaction Cycles
2016/12/02 全球购物
创造美妙香氛体验:Aera扩散器和香水
2018/11/25 全球购物
司机的工作范围及职责
2013/11/13 职场文书
编辑找工作求职信范文
2013/12/16 职场文书
社团成立邀请函
2014/01/08 职场文书
专题民主生活会对照检查材料思想汇报
2014/09/29 职场文书
钓鱼岛事件感想
2015/08/11 职场文书