urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python创建系统目录的方法
Mar 11 Python
Python中的模块导入和读取键盘输入的方法
Oct 16 Python
python基础_文件操作实现全文或单行替换的方法
Sep 04 Python
Python 12306抢火车票脚本 Python京东抢手机脚本
Feb 06 Python
python pcm音频添加头转成Wav格式文件的方法
Jan 09 Python
python-视频分帧&amp;多帧合成视频实例
Dec 10 Python
Django choices下拉列表绑定实例
Mar 13 Python
Python Flask框架实现简单加法工具过程解析
Jun 03 Python
Python图像处理二值化方法实例汇总
Jul 24 Python
一文读懂Python 枚举
Aug 25 Python
详解Pycharm与anaconda安装配置指南
Aug 25 Python
python实现图片批量压缩
Apr 24 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
常用表单验证类,有了这个,一般的验证就都齐了。
2006/12/06 PHP
PHP 类与构造函数解析
2017/02/06 PHP
使用php实现网站验证码功能【推荐】
2017/02/09 PHP
yii插入数据库防并发的简单代码
2017/05/27 PHP
ThinkPHP5.0框架控制器继承基类和自定义类示例
2018/05/25 PHP
Laravel框架集成UEditor编辑器的方法图文与实例详解
2019/04/17 PHP
Mootools 1.2教程 类(一)
2009/09/15 Javascript
Jquery cookie操作代码
2010/03/14 Javascript
jQuery最佳实践完整篇
2011/08/20 Javascript
js对象关系图 方便dom操作
2012/03/18 Javascript
WordPress中利用AJAX异步获取评论用户头像的方法
2016/01/08 Javascript
AngularJs解决跨域问题案例详解(简单方法)
2016/05/19 Javascript
jQuery+HTML5实现弹出创意搜索框层
2016/12/29 Javascript
基于javascript实现最简单选项卡切换
2017/02/01 Javascript
关于laydate.js加载laydate.css路径错误问题解决
2017/12/27 Javascript
vue.js 实现评价五角星组件的实例代码
2018/08/13 Javascript
JS中验证整数和小数的正则表达式
2018/10/08 Javascript
配置eslint规范项目代码风格
2019/03/11 Javascript
JS把字符串格式的时间转换成几秒前、几分钟前、几小时前、几天前等格式
2019/07/10 Javascript
Vue通过配置WebSocket并实现群聊功能
2019/12/31 Javascript
[00:32]DOTA2上海特级锦标赛 COL战队宣传片
2016/03/04 DOTA
[00:58]PWL开团时刻DAY5——十人开雾0换5
2020/11/04 DOTA
Python3.6基于正则实现的计算器示例【无优化简单注释版】
2018/06/14 Python
对python mayavi三维绘图的实现详解
2019/01/08 Python
python钉钉机器人运维脚本监控实例
2019/02/20 Python
Docker部署Python爬虫项目的方法步骤
2020/01/19 Python
Python系统公网私网流量监控实现流程
2020/11/23 Python
基于Django集成CAS实现流程详解
2020/11/28 Python
Html5嵌入钉钉的实现示例
2020/06/04 HTML / CSS
火山咖啡:Volcanica Coffee
2019/10/29 全球购物
财务与信息服务专业推荐信
2013/11/28 职场文书
施工资料员的岗位职责
2013/12/22 职场文书
终止合同协议书
2014/04/17 职场文书
测控技术自荐信
2014/06/05 职场文书
2014老师三严三实对照检查材料思想汇报
2014/09/18 职场文书
新娘父亲婚礼致辞
2015/07/27 职场文书