urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python中变量交换的例子
Aug 25 Python
浅析Python的Django框架中的Memcached
Jul 23 Python
一份python入门应该看的学习资料
Apr 11 Python
python实现Windows电脑定时关机
Jun 20 Python
python实时监控cpu小工具
Jun 21 Python
Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据示例
Jan 23 Python
Python Pandas数据中对时间的操作
Jul 30 Python
python滑块验证码的破解实现
Nov 10 Python
python使用 cx_Oracle 模块进行查询操作示例
Nov 28 Python
使用Python matplotlib作图时,设置横纵坐标轴数值以百分比(%)显示
May 16 Python
使用pytorch 筛选出一定范围的值
Jun 28 Python
Python3接口性能测试实例代码
Jun 20 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
PHP 反向排序和随机排序代码
2010/06/30 PHP
WordPress中用于获取文章信息以及分类链接的函数用法
2015/12/18 PHP
详解PHP使用Redis存储session时的一个Warning定位
2017/07/05 PHP
Jquery 基础学习笔记
2009/05/29 Javascript
jquery 学习之二 属性相关
2010/11/23 Javascript
父页面显示遮罩层弹出半透明状态的dialog
2014/03/04 Javascript
浅析javascript中function 的 length 属性
2014/05/27 Javascript
jquery操作HTML5 的data-*的用法实例分享
2014/08/17 Javascript
javascript动态创建及删除元素的方法
2014/12/22 Javascript
Javascript 拖拽雏形中的一些问题(逐行分析代码,让你轻松了拖拽的原理)
2015/01/23 Javascript
javascript运动效果实例总结(放大缩小、滑动淡入、滚动)
2016/01/08 Javascript
VUEJS实战之修复错误并且美化时间(2)
2016/06/13 Javascript
微信小程序  简单实例(阅读器)的实例开发
2016/09/29 Javascript
纯js模仿windows系统日历
2017/02/04 Javascript
Angularjs 与 bower安装和使用详解
2017/05/11 Javascript
JavaScript输出所选择起始与结束日期的方法
2017/07/12 Javascript
react native带索引的城市列表组件的实例代码
2017/08/08 Javascript
关于axios如何全局注册浅析
2018/01/14 Javascript
微信小程序scroll-x失效的完美解决方法
2018/07/18 Javascript
详解Vue的钩子函数(路由导航守卫、keep-alive、生命周期钩子)
2018/07/24 Javascript
vue-cli的build的文件夹下没有dev-server.js文件配置mock数据的方法
2019/04/17 Javascript
微信小程序wx.navigateTo中events属性实现页面间通信传值,数据同步
2019/07/13 Javascript
vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能
2020/11/16 Javascript
Python实现图片转字符画的示例代码
2017/08/21 Python
Python3实现发送QQ邮件功能(html)
2017/12/15 Python
Windows 安装 Anaconda3+PyCharm的方法步骤
2019/06/13 Python
解决Python计算矩阵乘向量,矩阵乘实数的一些小错误
2019/08/26 Python
手把手教你pycharm专业版安装破解教程(linux版)
2019/09/26 Python
django执行数据库查询之后实现返回的结果集转json
2020/03/31 Python
adidas旗下高尔夫装备供应商:TaylorMade Golf(泰勒梅高尔夫)
2016/08/28 全球购物
南京某软件公司的.net面试题
2015/11/30 面试题
Linux内核产生并发的原因
2016/11/08 面试题
内科护士实习自我鉴定
2013/10/17 职场文书
奥林匹克的口号
2014/06/13 职场文书
十八大观后感
2015/06/12 职场文书
2015小学音乐教师个人工作总结
2015/07/21 职场文书