编程 Python

urllib和BeautifulSoup爬取维基百科的词条简单实例

Posted in Python onJanuary 17, 2018

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条，具体如下。

简洁代码：

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#请求URL并把结果用UTF-8编码
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#获取所有以/wiki/开头的a标签的href属性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有词条对应的名称和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

运行结果：

urllib和BeautifulSoup爬取维基百科的词条简单实例

总结

总的来说，Python是简洁而又强大的，调用几个库，就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

urllib和BeautifulSoup爬取维基百科的词条简单实例

- Author -

powerpoint_2016

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python Django使用forms来实现评论功能

Aug 17 Python

Python中max函数用于二维列表的实例

Apr 03 Python

浅谈python连续赋值可能引发的错误

Nov 10 Python

Python编程深度学习绘图库之matplotlib

Dec 28 Python

python3爬虫学习之数据存储txt的案例详解

Apr 24 Python

使用celery执行Django串行异步任务的方法步骤

Jun 06 Python

python爬虫-模拟微博登录功能

Sep 12 Python

Python实现搜索算法的实例代码

Jan 02 Python

Python如何使用队列方式实现多线程爬虫

May 12 Python

详解pyqt5的UI中嵌入matplotlib图形并实时刷新(挖坑和填坑)

Aug 07 Python

Pycharm快捷键配置详细整理

Oct 13 Python

PyTorch 如何设置随机数种子使结果可复现

May 12 Python

python thrift搭建服务端和客户端测试程序

Jan 17 #Python

Python元字符的用法实例解析

Jan 17 #Python

Python工程师面试必备25条知识点

Jan 17 #Python

python根据unicode判断语言类型实例代码

Jan 17 #Python

Python线性方程组求解运算示例

Jan 17 #Python

快速了解Python开发中的cookie及简单代码示例

Jan 17 #Python

Python基于高斯消元法计算线性方程组示例

Jan 17 #Python

You might like

解决ajax+php中文乱码的方法详解

2013/06/09 PHP

php可变长参数处理函数详解

2017/02/22 PHP

THINKPHP截取中文字符串函数实例代码

2017/03/20 PHP

Laravel 5.4向IoC容器中添加自定义类的方法示例

2017/08/15 PHP

学习ExtJS border布局

2009/10/08 Javascript

javascript 密码强度验证规则、打分、验证（给出前端代码，后端代码可根据强度规则翻译）

2010/05/18 Javascript

ExtJS 2.0 GridPanel基本表格简明教程

2010/05/25 Javascript

JavaScript中的style.display属性操作

2013/03/27 Javascript

探讨js中的双感叹号判断

2013/11/11 Javascript

JS使用post提交的两种方式

2015/12/03 Javascript

js获取鼠标位置实例详解

2015/12/09 Javascript

JS对象深度克隆实例分析

2017/03/16 Javascript

基于匀速运动的实例讲解(侧边栏,淡入淡出)

2017/10/17 Javascript

关于Mac下安装nodejs、npm和cnpm的教程

2018/04/11 NodeJs

vue+egg+jwt实现登录验证的示例代码

2019/05/18 Javascript

javascript绘制简单钟表效果

2020/04/07 Javascript

js实现带有动画的返回顶部

2020/08/09 Javascript

[43:32]2014 DOTA2华西杯精英邀请赛 5 25 LGD VS NewBee第一场

2014/05/26 DOTA

[01:14:55]EG vs Spirit Supermajor 败者组 BO3 第三场 6.4

2018/06/05 DOTA

Python的SimpleHTTPServer模块用处及使用方法简介

2018/01/22 Python

解决安装python库时windows error5 报错的问题

2018/10/21 Python

python多线程同步之文件读写控制

2021/02/25 Python

python编写计算器功能

2019/10/25 Python

Python实现自动访问网页的例子

2020/02/21 Python

巧用CSS3 border实现图片遮罩效果代码

2012/04/09 HTML / CSS

html5使用canvas绘制文字特效

2014/12/15 HTML / CSS

阿迪达斯加拿大官网：Adidas加拿大

2016/08/25 全球购物

捷克多品牌在线时尚商店：ANSWEAR.cz

2020/10/03 全球购物

某/etc/fstab文件中的某行如下： /dev/had5 /mnt/dosdata msdos defaults,usrquota 1 2 请解释其含义

2013/09/18 面试题

Linux如何命名文件--使用文件名时应注意

2012/01/22 面试题

农场厂长岗位职责

2013/12/28 职场文书

项目管理计划书

2014/01/09 职场文书

员工安全承诺书

2014/05/22 职场文书

阳光体育活动实施方案

2014/05/25 职场文书

物联网工程专业推荐信

2014/09/08 职场文书

go结构体嵌套的切片数组操作

2021/04/28 Golang