urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python中for循环控制语句用法实例
Jun 02 Python
Python常见加密模块用法分析【MD5,sha,crypt模块】
May 24 Python
Python中字典和集合学习小结
Jul 07 Python
Python爬虫包BeautifulSoup异常处理(二)
Jun 17 Python
python DataFrame 取差集实例
Jan 30 Python
python重试装饰器的简单实现方法
Jan 31 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 Python
Python实现带下标索引的遍历操作示例
May 30 Python
Python生成验证码、计算具体日期是一年中的第几天实例代码详解
Oct 16 Python
python文件及目录操作代码汇总
Jul 08 Python
在Django中使用MQTT的方法
May 10 Python
Python中seaborn库之countplot的数据可视化使用
Jun 11 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
一个多文件上传的例子(原创)
2006/10/09 PHP
用PHP生成自己的LOG文件
2006/10/09 PHP
有关phpmailer的详细介绍及使用方法
2013/01/28 PHP
destoon实现商铺管理主页设置增加新菜单的方法
2014/06/26 PHP
10个实用的PHP正则表达式汇总
2014/10/23 PHP
php学习笔记之基础知识
2014/11/08 PHP
yii2 在控制器中验证请求参数的使用方法
2019/06/19 PHP
增强的 JavaScript 的 trim 函数的代码
2007/08/13 Javascript
json 实例详细说明教程
2009/10/31 Javascript
利用javascript实现web页面中指定区域打印
2013/10/30 Javascript
javascript在子页面中函数无法调试问题解决方法
2014/01/17 Javascript
JS点击链接后慢慢展开隐藏着图片的方法
2015/02/17 Javascript
JavaScript获取表单enctype属性的方法
2015/04/02 Javascript
JavaScript 模块的循环加载实现方法
2015/12/13 Javascript
深入浅析knockout源码分析之订阅
2016/07/12 Javascript
浅谈layer的iframe弹窗给里面的标签赋值的问题
2016/11/10 Javascript
jQuery中ajax请求后台返回json数据并渲染HTML的方法
2018/08/08 jQuery
对 Vue-Router 进行单元测试的方法
2018/11/05 Javascript
详解vuejs中执行npm run dev出现页面cannot GET/问题
2020/04/26 Javascript
JS中作用域以及变量范围分析
2020/07/18 Javascript
Vue实现省市区三级联动
2020/12/27 Vue.js
python的构建工具setup.py的方法使用示例
2017/10/23 Python
python Tkinter的图片刷新实例
2019/06/14 Python
python绘制评估优化算法性能的测试函数
2019/06/25 Python
python多任务之协程的使用详解
2019/08/26 Python
Python改变对象的字符串显示的方法
2020/08/01 Python
python绘图模块之利用turtle画图
2021/02/12 Python
利用html5 canvas动态画饼状图的示例代码
2018/04/02 HTML / CSS
HTML5+CSS3应用详解
2014/02/24 HTML / CSS
日本一家专门经营各种箱包的大型网站:Traveler Store
2016/08/03 全球购物
方正Java笔试题
2014/07/03 面试题
投资意向协议书
2015/01/29 职场文书
2015年世界急救日宣传活动方案
2015/05/06 职场文书
工作收入证明模板
2015/06/12 职场文书
婚宴来宾致辞
2015/07/28 职场文书
MySQL优化及索引解析
2022/03/17 MySQL