urllib和BeautifulSoup爬取维基百科的词条简单实例


Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果:

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python引用DLL文件的方法
May 11 Python
高效测试用例组织算法pairwise之Python实现方法
Jul 19 Python
Python模拟自动存取款机的查询、存取款、修改密码等操作
Sep 02 Python
Python产生Gnuplot绘图数据的方法
Nov 09 Python
对python过滤器和lambda函数的用法详解
Jan 21 Python
Python静态类型检查新工具之pyright 使用指南
Apr 26 Python
Django中自定义查询对象的具体使用
Oct 13 Python
对python中assert、isinstance的用法详解
Nov 27 Python
pytorch程序异常后删除占用的显存操作
Jan 13 Python
python解释器pycharm安装及环境变量配置教程图文详解
Feb 26 Python
python 最简单的实现适配器设计模式的示例
Jun 30 Python
PyCharm 解决找不到新打开项目的窗口问题
Jan 15 Python
python thrift搭建服务端和客户端测试程序
Jan 17 #Python
Python元字符的用法实例解析
Jan 17 #Python
Python工程师面试必备25条知识点
Jan 17 #Python
python根据unicode判断语言类型实例代码
Jan 17 #Python
Python线性方程组求解运算示例
Jan 17 #Python
快速了解Python开发中的cookie及简单代码示例
Jan 17 #Python
Python基于高斯消元法计算线性方程组示例
Jan 17 #Python
You might like
ubuntu12.04使用c编写php扩展模块教程分享
2013/12/25 PHP
Yii 访问 Gii(脚手架)时出现 403 错误
2018/06/06 PHP
PHP+MySql实现一个简单的留言板
2020/07/19 PHP
linux mint下安装phpstorm2020包括JDK部分的教程详解
2020/09/17 PHP
JavaScript语法着色引擎(demo及打包文件下载)
2007/06/13 Javascript
Mootools 1.2教程(21)——类(二)
2009/09/15 Javascript
显示js对象所有属性和方法的函数
2009/10/16 Javascript
jquery向.ashx文件post中文乱码问题的解决方法
2011/03/28 Javascript
jquery 隐藏与显示tr标签示例代码
2014/06/06 Javascript
深入理解javascript中的立即执行函数(function(){…})()
2014/06/12 Javascript
nodejs模块nodemailer基本使用-邮件发送示例(支持附件)
2017/03/28 NodeJs
JavaScript实现选中文字提示新浪微博分享效果
2017/06/15 Javascript
通过一次报错详细谈谈Point事件
2018/05/17 Javascript
Echarts之悬浮框中的数据排序问题
2018/11/08 Javascript
JS执行控制之节流模式实例分析
2018/12/21 Javascript
了解javascript中的Dom操作
2019/05/27 Javascript
vue使用vue-quill-editor富文本编辑器且将图片上传到服务器的功能
2021/01/13 Vue.js
python批量设置多个Excel文件页眉页脚的脚本
2018/03/14 Python
Python实现队列的方法示例小结【数组,链表】
2020/02/22 Python
详解Pycharm出现out of memory的终极解决方法
2020/03/03 Python
Python列表嵌套常见坑点及解决方案
2020/09/30 Python
Python监听剪切板实现方法代码实例
2020/11/11 Python
利用Python将多张图片合成视频的实现
2020/11/23 Python
HTML5 Canvas实现文本对齐的方法总结
2016/03/24 HTML / CSS
HTML 5 input placeholder 属性如何完美兼任ie
2014/05/12 HTML / CSS
html5生成柱状图(条形图)效果的实例代码
2016/03/25 HTML / CSS
美国高端婴童品牌:Hanna Andersson
2016/10/30 全球购物
普罗米修斯教学反思
2014/02/06 职场文书
企业文化建设实施方案
2014/03/22 职场文书
2014年安全生产目标责任书
2014/07/23 职场文书
县长群众路线对照检查材料思想汇报
2014/10/02 职场文书
庆祝教师节标语
2014/10/09 职场文书
篮球友谊赛通讯稿
2014/10/10 职场文书
2014年小学教研工作总结
2014/12/06 职场文书
慰问信模板
2015/02/14 职场文书
车间统计员岗位职责
2015/04/14 职场文书