urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python使用心得之获得github代码库列表
Jun 25 Python
Python发送以整个文件夹的内容为附件的邮件的教程
May 06 Python
Python编程之Re模块下的函数介绍
Oct 28 Python
python3实现域名查询和whois查询功能
Jun 21 Python
Django 开发环境与生产环境的区分详解
Jul 26 Python
python二元表达式用法
Dec 04 Python
详解django中Template语言
Feb 22 Python
jupyter 导入csv文件方式
Apr 21 Python
使用python实现微信小程序自动签到功能
Apr 27 Python
django前端页面下拉选择框默认值设置方式
Aug 09 Python
Python+OpenCV图像处理——图像二值化的实现
Oct 24 Python
python爬虫爬取图片的简单代码
Jan 18 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
Yii开启片段缓存的方法
2016/03/28 PHP
CI框架实现cookie登陆的方法详解
2016/05/18 PHP
php微信公众号js-sdk开发应用
2016/11/28 PHP
javascript 装载iframe子页面,自适应高度
2009/03/20 Javascript
Jquey拖拽控件Draggable使用方法(asp.net环境)
2010/09/28 Javascript
jQuery EasyUI API 中文文档 - Draggable 可拖拽
2011/09/29 Javascript
Extjs4中tree的拖拽功能(可以两棵树之间拖拽) 简单实例
2013/12/08 Javascript
jQuery中ajax的get()方法用法实例
2014/12/26 Javascript
Bootstrap入门书籍之(三)栅格系统
2016/02/17 Javascript
基于javascript实现全屏漂浮广告
2016/03/31 Javascript
微信小程序 UI与容器组件总结
2017/02/21 Javascript
vue.js树形组件之删除双击增加分支实例代码
2017/02/28 Javascript
echarts多条折线图动态分层的实现方法
2019/05/24 Javascript
深入理解Vue keep-alive及实践总结
2019/08/21 Javascript
vue.js的状态管理vuex中store的使用详解
2019/11/08 Javascript
nodejs+koa2 实现模仿springMVC框架
2020/10/21 NodeJs
[01:51]2014DOTA2国际邀请赛 这个赛场没有失败者VGTi5再见
2014/07/23 DOTA
python多线程threading.Lock锁用法实例
2014/11/01 Python
简单介绍Python中的len()函数的使用
2015/04/07 Python
轻松理解Python 中的 descriptor
2017/09/15 Python
Python3实现对列表按元组指定列进行排序的方法分析
2018/12/22 Python
Python any()函数的使用方法
2019/10/28 Python
Python3 hashlib密码散列算法原理详解
2020/03/30 Python
Python 常用日期处理 -- calendar 与 dateutil 模块的使用
2020/09/02 Python
最新PyCharm 2020.2.3永久激活码(亲测有效)
2020/11/26 Python
html5 canvas实现给图片添加平铺水印
2019/08/20 HTML / CSS
ProBikeKit英国:在线公路自行车之家
2017/02/10 全球购物
英国顶尖手表珠宝品牌独家授权经销商:HS Johnson
2020/10/28 全球购物
vue路由实现登录拦截
2021/03/24 Vue.js
简历中求职的个人自我评价
2013/12/03 职场文书
韩国商务邀请函
2014/01/14 职场文书
2014年健康教育实施方案
2014/02/17 职场文书
加油口号大全
2014/06/13 职场文书
2014年节能降耗工作总结
2014/12/11 职场文书
文明家庭事迹材料
2014/12/20 职场文书
学会Python数据可视化必须尝试这7个库
2021/06/16 Python