urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python Django使用forms来实现评论功能
Aug 17 Python
Python中max函数用于二维列表的实例
Apr 03 Python
浅谈python连续赋值可能引发的错误
Nov 10 Python
Python编程深度学习绘图库之matplotlib
Dec 28 Python
python3爬虫学习之数据存储txt的案例详解
Apr 24 Python
使用celery执行Django串行异步任务的方法步骤
Jun 06 Python
python爬虫-模拟微博登录功能
Sep 12 Python
Python实现搜索算法的实例代码
Jan 02 Python
Python如何使用队列方式实现多线程爬虫
May 12 Python
详解pyqt5的UI中嵌入matplotlib图形并实时刷新(挖坑和填坑)
Aug 07 Python
Pycharm快捷键配置详细整理
Oct 13 Python
PyTorch 如何设置随机数种子使结果可复现
May 12 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
解决ajax+php中文乱码的方法详解
2013/06/09 PHP
php可变长参数处理函数详解
2017/02/22 PHP
THINKPHP截取中文字符串函数实例代码
2017/03/20 PHP
Laravel 5.4向IoC容器中添加自定义类的方法示例
2017/08/15 PHP
学习ExtJS border布局
2009/10/08 Javascript
javascript 密码强度验证规则、打分、验证(给出前端代码,后端代码可根据强度规则翻译)
2010/05/18 Javascript
ExtJS 2.0 GridPanel基本表格简明教程
2010/05/25 Javascript
JavaScript中的style.display属性操作
2013/03/27 Javascript
探讨js中的双感叹号判断
2013/11/11 Javascript
JS使用post提交的两种方式
2015/12/03 Javascript
js获取鼠标位置实例详解
2015/12/09 Javascript
JS对象深度克隆实例分析
2017/03/16 Javascript
基于匀速运动的实例讲解(侧边栏,淡入淡出)
2017/10/17 Javascript
关于Mac下安装nodejs、npm和cnpm的教程
2018/04/11 NodeJs
vue+egg+jwt实现登录验证的示例代码
2019/05/18 Javascript
javascript绘制简单钟表效果
2020/04/07 Javascript
js实现带有动画的返回顶部
2020/08/09 Javascript
[43:32]2014 DOTA2华西杯精英邀请赛 5 25 LGD VS NewBee第一场
2014/05/26 DOTA
[01:14:55]EG vs Spirit Supermajor 败者组 BO3 第三场 6.4
2018/06/05 DOTA
Python的SimpleHTTPServer模块用处及使用方法简介
2018/01/22 Python
解决安装python库时windows error5 报错的问题
2018/10/21 Python
python多线程同步之文件读写控制
2021/02/25 Python
python编写计算器功能
2019/10/25 Python
Python实现自动访问网页的例子
2020/02/21 Python
巧用CSS3 border实现图片遮罩效果代码
2012/04/09 HTML / CSS
html5使用canvas绘制文字特效
2014/12/15 HTML / CSS
阿迪达斯加拿大官网:Adidas加拿大
2016/08/25 全球购物
捷克多品牌在线时尚商店:ANSWEAR.cz
2020/10/03 全球购物
某/etc/fstab文件中的某行如下: /dev/had5 /mnt/dosdata msdos defaults,usrquota 1 2 请解释其含义
2013/09/18 面试题
Linux如何命名文件--使用文件名时应注意
2012/01/22 面试题
农场厂长岗位职责
2013/12/28 职场文书
项目管理计划书
2014/01/09 职场文书
员工安全承诺书
2014/05/22 职场文书
阳光体育活动实施方案
2014/05/25 职场文书
物联网工程专业推荐信
2014/09/08 职场文书
go结构体嵌套的切片数组操作
2021/04/28 Golang