urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python 错误和异常小结
Oct 09 Python
python操作mysql中文显示乱码的解决方法
Oct 11 Python
Python通过PIL获取图片主要颜色并和颜色库进行对比的方法
Mar 19 Python
浅谈Python的异常处理
Jun 19 Python
基于Django URL传参 FORM表单传数据 get post的用法实例
May 28 Python
PyCharm配置mongo插件的方法
Nov 30 Python
Python编程flask使用页面模版的方法
Dec 28 Python
pandas实现DataFrame显示最大行列,不省略显示实例
Dec 26 Python
PyTorch使用cpu加载模型运算方式
Jan 13 Python
Python中关于logging模块的学习笔记
Jun 03 Python
Python datetime模块的使用示例
Feb 02 Python
Python+OpenCV实现在图像上绘制矩形
Mar 21 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
php生成图形验证码几种方法小结
2013/08/15 PHP
PHP独立Session数据库存储操作类分享
2014/06/11 PHP
php递归创建目录的方法
2015/02/02 PHP
BOOM vs RR BO5 第二场 2.14
2021/03/10 DOTA
修改jquery.lazyload.js实现页面延迟载入
2010/12/22 Javascript
代码触发js事件(click、change)示例应用
2013/12/13 Javascript
图片翻转效果具体实现代码
2014/01/09 Javascript
js用拖动滑块来控制图片大小的方法
2015/02/27 Javascript
jquery.validate提示错误信息位置方法
2016/01/22 Javascript
深入浅析JS Function()构造函数
2016/08/22 Javascript
对Vue table 动态表格td可编辑的方法详解
2018/08/28 Javascript
使用gulp构建前端自动化的方法示例
2018/12/25 Javascript
原生JS实现列表内容自动向上滚动效果
2019/05/22 Javascript
Python中字符串的常见操作技巧总结
2016/07/28 Python
在Python的一段程序中如何使用多次事件循环详解
2017/09/07 Python
对python中的高效迭代器函数详解
2018/10/18 Python
python selenium实现发送带附件的邮件代码实例
2019/12/10 Python
浅谈Python爬虫原理与数据抓取
2020/07/21 Python
深入浅析pycharm中 Make available to all projects的含义
2020/09/15 Python
python爬虫基础之urllib的使用
2020/12/31 Python
Python3中对json格式数据的分析处理
2021/01/28 Python
使用CSS禁止textarea调整大小功能的方法
2015/03/13 HTML / CSS
HTML5 LocalStorage 本地存储刷新值还在
2017/03/10 HTML / CSS
京东港澳售:京东直邮港澳台
2018/01/31 全球购物
英国领先的维生素和营养补充剂直接供应商:Healthspan
2019/04/22 全球购物
澳大利亚办公室装修:JasonL Office Furniture
2019/06/25 全球购物
Made in Design德国:设计师家具、灯具和装饰
2019/10/31 全球购物
香港零食网购:上仓胃子
2020/06/08 全球购物
编写类String 的构造函数、析构函数和赋值函数
2012/09/09 面试题
乔布斯斯坦福大学演讲稿
2014/05/23 职场文书
大学生作弊检讨书
2014/09/11 职场文书
安全生产警示教育活动总结
2015/05/09 职场文书
高中开学感言
2015/08/01 职场文书
2016高校自主招生自荐信范文
2016/01/28 职场文书
基于nginx实现上游服务器动态自动上下线无需reload的实现方法
2021/03/31 Servers
Python机器学习之KNN近邻算法
2021/05/14 Python