urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
pip 错误unused-command-line-argument-hard-error-in-future解决办法
Jun 01 Python
Zabbix实现微信报警功能
Oct 09 Python
python读取和保存图片5种方法对比
Sep 12 Python
实例讲解python中的协程
Oct 08 Python
Python实现查找最小的k个数示例【两种解法】
Jan 08 Python
Python 20行简单实现有道在线翻译的详解
May 15 Python
Django 源码WSGI剖析过程详解
Aug 05 Python
将Python文件打包成.EXE可执行文件的方法
Aug 11 Python
python实现输出一个序列的所有子序列示例
Nov 18 Python
Python+OpenCV检测灯光亮点的实现方法
Nov 02 Python
python中threading和queue库实现多线程编程
Feb 06 Python
python中对列表的删除和添加方法详解
Feb 24 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
从零开始 教你如何搭建Discuz!4.1论坛
2006/07/07 PHP
php遍历删除整个目录及文件的方法
2015/03/13 PHP
PDO::errorInfo讲解
2019/01/28 PHP
CentOS7系统搭建LAMP及更新PHP版本操作详解
2020/03/26 PHP
一段多浏览器的&quot;复制到剪贴板&quot;javascript代码
2007/03/27 Javascript
js 匿名调用实现代码
2009/06/19 Javascript
JavaScript的public、private和privileged模式
2009/12/28 Javascript
JavaScript实现复制功能各浏览器支持情况实测
2013/07/18 Javascript
Jquery Uploadify多文件上传带进度条且传递自己的参数
2013/08/28 Javascript
jquery ready函数、css函数及text()使用示例
2013/09/27 Javascript
深入分析Javascript事件代理
2016/01/30 Javascript
全面解析bootstrap格子布局
2016/05/22 Javascript
Jquery on方法绑定事件后执行多次的解决方法
2016/06/02 Javascript
jquery组件WebUploader文件上传用法详解
2020/10/23 Javascript
使用Webpack提高Vue.js应用的方式汇总(四种)
2017/07/10 Javascript
详解KOA2如何手写中间件(装饰器模式)
2018/10/11 Javascript
Vue-cli3.X使用px2 rem遇到的问题及解决方法
2019/08/08 Javascript
Vue.js的模板语法详解
2020/02/16 Javascript
JavaScript中继承原理与用法实例入门
2020/05/09 Javascript
Vuejs通过拖动改变元素宽度实现自适应
2020/09/02 Javascript
[02:09:59]火猫TV国士无双dota2 6.82版本详解(下)
2014/09/29 DOTA
python3实现暴力穷举博客园密码
2016/06/19 Python
python程序控制NAO机器人行走
2019/04/29 Python
详解PyCharm安装MicroPython插件的教程
2019/06/24 Python
使用python将mysql数据库的数据转换为json数据的方法
2019/07/01 Python
Python使用线程来接收串口数据的示例
2019/07/02 Python
python opencv调用笔记本摄像头
2019/08/28 Python
捷克移动配件网上商店:ProMobily.cz
2019/03/15 全球购物
size?丹麦官网:英国伦敦的球鞋精品店
2019/04/15 全球购物
NYX Professional Makeup俄罗斯官网:世界知名的化妆品品牌
2019/12/26 全球购物
广告学专业推荐信范文
2013/11/23 职场文书
餐饮管理自我介绍信
2014/01/15 职场文书
小学生竞选班干部演讲稿
2014/04/24 职场文书
作风建设年活动总结
2014/08/27 职场文书
法定代表人资格证明书
2014/09/11 职场文书
Python 中数组和数字相乘时的注意事项说明
2021/05/10 Python