Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 用户登录验证的小例子
Mar 06 Python
python小技巧之批量抓取美女图片
Jun 06 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 Python
python生成式的send()方法(详解)
May 08 Python
python实现word 2007文档转换为pdf文件
Mar 15 Python
python3实现zabbix告警推送钉钉的示例
Feb 20 Python
python3实现字符串操作的实例代码
Apr 16 Python
在Python中画图(基于Jupyter notebook的魔法函数)
Oct 28 Python
python队列原理及实现方法示例
Nov 27 Python
Python3如何使用多线程升程序运行速度
Aug 11 Python
Python爬虫实战案例之爬取喜马拉雅音频数据详解
Dec 07 Python
详解Pycharm第三方库的安装及使用方法
Dec 29 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
mac下使用brew配置环境的步骤分享
2011/05/23 PHP
PHP 之 写时复制介绍(Copy On Write)
2014/05/13 PHP
php校验表单检测字段是否为空的方法
2015/03/20 PHP
CI框架实现cookie登陆的方法详解
2016/05/18 PHP
Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解
2020/10/20 PHP
跨域表单提交状态的变相判断代码
2009/11/12 Javascript
AeroWindow 基于JQuery的弹出窗口插件
2011/06/27 Javascript
javascript 保存文件到本地实现方法
2012/11/29 Javascript
jquery插件jTimer(jquery定时器)使用方法
2013/12/23 Javascript
动态更新highcharts数据的实现方法
2016/05/28 Javascript
angular基于路由控制ui-router实现系统权限控制
2016/09/27 Javascript
JS实现的图片预览插件与用法示例【不上传图片】
2016/11/25 Javascript
使用js获取伪元素的content实例
2017/10/24 Javascript
vuejs使用axios异步访问时用get和post的实例讲解
2018/08/09 Javascript
vue 使用自定义指令实现表单校验的方法
2018/08/28 Javascript
移动端如何用下拉刷新的方式实现上拉加载
2018/12/10 Javascript
在微信小程序中使用vant的方法
2019/06/07 Javascript
vue使用swiper实现左右滑动切换图片
2020/10/16 Javascript
解决vuex刷新数据消失问题
2020/11/12 Javascript
[01:07:22]2014 DOTA2华西杯精英邀请赛 5 24 DK VS VG加赛
2014/05/26 DOTA
[49:35]KG vs SECRET 2019国际邀请赛小组赛 BO2 第一场 8.16
2019/08/19 DOTA
Python过滤函数filter()使用自定义函数过滤序列实例
2014/08/26 Python
Python的设计模式编程入门指南
2015/04/02 Python
Python中尝试多线程编程的一个简明例子
2015/04/07 Python
django使用html模板减少代码代码解析
2017/12/12 Python
基于Django快速集成Echarts代码示例
2020/12/01 Python
详解CSS3中border-image的使用
2015/07/18 HTML / CSS
狗狗玩具、零食和咀嚼物的月度送货服务:Super Chewer
2018/08/22 全球购物
宿舍卫生检讨书
2014/01/16 职场文书
大学四年个人的自我评价
2014/02/26 职场文书
厨房领班竞聘演讲稿
2014/04/23 职场文书
优秀班组长事迹
2014/05/31 职场文书
地球物理学专业推荐信
2014/09/08 职场文书
介绍信怎么写
2015/05/05 职场文书
《角的度量》教学反思
2016/02/18 职场文书
Python爬虫之自动爬取某车之家各车销售数据
2021/06/02 Python