urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
以一段代码为实例快速入门Python2.7
Mar 31 Python
分析用Python脚本关闭文件操作的机制
Jun 28 Python
python开发之for循环操作实例详解
Nov 12 Python
Python中模块string.py详解
Mar 12 Python
python3.6使用pymysql连接Mysql数据库
May 25 Python
Python判断有效的数独算法示例
Feb 23 Python
Python生成MD5值的两种方法实例分析
Apr 26 Python
Python3实现zip分卷压缩过程解析
Oct 09 Python
Pytorch中index_select() 函数的实现理解
Nov 19 Python
tensorflow实现打印ckpt模型保存下的变量名称及变量值
Jan 04 Python
python mysql自增字段AUTO_INCREMENT值的修改方式
May 18 Python
python装饰器实现对异常代码出现进行自动监控的实现方法
Sep 15 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
使用sockets:从新闻组中获取文章(一)
2006/10/09 PHP
PHP手机号中间四位用星号*代替显示的实例
2017/06/02 PHP
利用PHP访问MySql数据库的逻辑操作以及增删改查的实例讲解
2017/08/30 PHP
JQuery切换显示的效果实例代码
2013/02/27 Javascript
js获取当前月的第一天和最后一天的小例子
2013/11/18 Javascript
20条学习javascript的编程规范的建议
2014/11/28 Javascript
AngularJS表单编辑提交功能实例
2015/02/13 Javascript
Js和JQuery获取鼠标指针坐标的实现代码分享
2015/05/25 Javascript
jQuery使用$.ajax进行即时验证的方法
2015/12/08 Javascript
jQuery实现下拉框左右移动(全部移动,已选移动)
2016/04/15 Javascript
Angular浏览器插件Batarang介绍及使用
2018/02/07 Javascript
VUE安装使用教程详解
2019/06/03 Javascript
vue项目中引入Sass实例方法
2019/08/27 Javascript
JS函数基本定义与用法示例
2020/01/15 Javascript
Python实现股市信息下载的方法
2015/06/15 Python
Python实现自动登录百度空间的方法
2017/06/10 Python
python3.4用函数操作mysql5.7数据库
2017/06/23 Python
Python实现的计算马氏距离算法示例
2018/04/03 Python
对python3新增的byte类型详解
2018/12/04 Python
基于Django ORM、一对一、一对多、多对多的全面讲解
2019/07/26 Python
python GUI库图形界面开发之PyQt5单选按钮控件QRadioButton详细使用方法与实例
2020/02/28 Python
最新版 Windows10上安装Python 3.8.5的步骤详解
2020/11/28 Python
html5 CSS过度-webkit-transition使用介绍
2013/07/02 HTML / CSS
印度尼西亚值得信赖的第一家网店:Bhinneka
2018/07/16 全球购物
Zalando Lounge瑞士:时尚与生活方式购物俱乐部
2020/03/12 全球购物
怎样从/向数据文件读/写结构
2014/11/23 面试题
应届生求职信写作技巧
2013/10/24 职场文书
《罗布泊,消逝的仙湖》教学反思
2014/03/01 职场文书
高中军训感想300字
2014/03/04 职场文书
乡镇保密工作责任书
2014/07/28 职场文书
4S店收银员岗位职责
2015/04/07 职场文书
劳动者解除劳动合同通知书
2015/04/16 职场文书
向雷锋同志学习倡议书
2015/04/27 职场文书
2019年最新版见习人员管理制度!
2019/07/08 职场文书
python识别围棋定位棋盘位置
2021/07/26 Python
Python+Selenium实现读取网易邮箱验证码
2022/03/13 Python