urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python获得图片base64编码示例
Jan 16 Python
python直接访问私有属性的简单方法
Jul 25 Python
Python 常用 PEP8 编码规范详解
Jan 22 Python
pycharm重置设置,恢复默认设置的方法
Oct 22 Python
python RabbitMQ 使用详细介绍(小结)
Nov 08 Python
python异步实现定时任务和周期任务的方法
Jun 29 Python
Python+Selenium使用Page Object实现页面自动化测试
Jul 14 Python
Python获取时间范围内日期列表和周列表的函数
Aug 05 Python
python子线程退出及线程退出控制的代码
Oct 16 Python
Python 解析pymysql模块操作数据库的方法
Feb 18 Python
Python多线程多进程实例对比解析
Mar 12 Python
Keras预训练的ImageNet模型实现分类操作
Jul 07 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
DEDE采集大师官方留后门的删除办法
2011/01/08 PHP
php提交post数组参数实例分析
2015/12/17 PHP
PHP四种排序算法实现及效率分析【冒泡排序,插入排序,选择排序和快速排序】
2018/04/27 PHP
扩展JavaScript功能的正确方法(译文)
2012/04/12 Javascript
jQuery选择器简明总结(含用法实例,一目了然)
2014/04/25 Javascript
浅析node.js中close事件
2014/11/26 Javascript
js中hash和ico的关联分析
2015/02/05 Javascript
Nodejs关于gzip/deflate压缩详解
2015/03/04 NodeJs
JavaScript制作windows经典扫雷小游戏
2015/03/31 Javascript
JS产生随机数的用法小结
2016/12/10 Javascript
浅析java线程中断的办法
2018/07/29 Javascript
在vue.js中使用JSZip实现在前端解压文件的方法
2018/09/05 Javascript
深入理解nodejs搭建静态服务器(实现命令行)
2019/02/05 NodeJs
详解基于vue-cli3快速发布一个fullpage组件
2019/03/08 Javascript
angular 实现下拉列表组件的示例代码
2019/03/09 Javascript
JavaScript数组及常见操作方法小结
2019/11/13 Javascript
vue中axios防止多次触发终止多次请求的示例代码(防抖)
2020/02/16 Javascript
Python基于opencv的图像压缩算法实例分析
2018/05/03 Python
python2与python3共存问题的解决方法
2018/09/18 Python
Python实现登陆文件验证方法
2018/10/06 Python
Django框架自定义session处理操作示例
2019/05/27 Python
python用类实现文章敏感词的过滤方法示例
2019/10/27 Python
PyQt5.6+pycharm配置以及pyinstaller生成exe(小白教程)
2020/06/02 Python
浅谈Python 函数式编程
2020/06/20 Python
Python实现区域填充的示例代码
2021/02/03 Python
css3实现元素环绕中心点布局的方法示例
2019/01/15 HTML / CSS
Joie官方网上商店:购买服装和女装配饰
2018/06/05 全球购物
耐克奥地利官网:Nike奥地利
2019/08/16 全球购物
宝信软件JAVA工程师面试经历
2012/08/19 面试题
实习自我鉴定模板
2013/09/28 职场文书
怎么写工作检讨书
2014/11/16 职场文书
2014年语文教研组工作总结
2014/12/06 职场文书
简历中的自我评价应该这样写!
2019/07/12 职场文书
Java实战之用Swing实现通讯录管理系统
2021/06/13 Java/Android
动漫APP软件排行榜前十名,半次元上榜,第一款由腾讯公司推出
2022/03/18 杂记
JS class语法糖的深入剖析
2022/07/07 Javascript