Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python捕捉和模拟鼠标事件的方法
Jun 03 Python
python友情链接检查方法
Jul 08 Python
python UNIX_TIMESTAMP时间处理方法分析
Apr 18 Python
Python制作简易注册登录系统
Dec 15 Python
python中使用正则表达式的后向搜索肯定模式(推荐)
Nov 11 Python
Python使用add_subplot与subplot画子图操作示例
Jun 01 Python
使用PyCharm创建Django项目及基本配置详解
Oct 24 Python
python 检查数据中是否有缺失值,删除缺失值的方式
Dec 02 Python
解决pytorch报错:AssertionError: Invalid device id的问题
Jan 10 Python
Python实现AI换脸功能
Apr 10 Python
浅谈Tensorflow加载Vgg预训练模型的几个注意事项
May 26 Python
matplotlib相关系统目录获取方式小结
Feb 03 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
重置版游戏视频
2020/04/09 魔兽争霸
Windows下PHP的任意文件执行漏洞
2006/10/09 PHP
PHP访问Google Search API的方法
2015/03/05 PHP
YII2框架中使用yii.js实现的post请求
2017/04/09 PHP
js 判断浏览器类型 去全角、半角空格 自动关闭当前窗口
2009/04/10 Javascript
在IE 浏览器中使用 jquery的fadeIn() 效果 英文字符字体加粗
2011/06/02 Javascript
JavaScript使用Max函数返回两个数字中较大数的方法
2015/04/06 Javascript
JS实现3D图片旋转展示效果代码
2015/09/22 Javascript
12种JavaScript常用的MVC框架比较分析
2015/11/16 Javascript
基于javascript html5实现多文件上传
2016/03/03 Javascript
正则表达式(语法篇推荐)
2016/06/24 Javascript
微信小程序 点击控件后选中其它反选实例详解
2017/02/21 Javascript
react.js 获取真实的DOM节点实例(必看)
2017/04/17 Javascript
vue.js 左侧二级菜单显示与隐藏切换的实例代码
2017/05/23 Javascript
基于匀速运动的实例讲解(侧边栏,淡入淡出)
2017/10/17 Javascript
微信小程序中如何计算距离某个节日还有多少天
2019/07/15 Javascript
vue3为什么要用proxy替代defineProperty
2020/10/19 Javascript
vue3使用vue-count-to组件的实现
2020/12/25 Vue.js
[02:14]DOTA2英雄基础教程 修补匠
2013/12/23 DOTA
python相似模块用例
2016/03/04 Python
Python基于回溯法子集树模板解决全排列问题示例
2017/09/07 Python
python中ImageTk.PhotoImage()不显示图片却不报错问题解决
2018/12/06 Python
pyttsx3实现中文文字转语音的方法
2018/12/24 Python
Python 一键获取百度网盘提取码的方法
2019/08/01 Python
解决python 读取excel时 日期变成数字并加.0的问题
2019/10/08 Python
Python自动化完成tb喵币任务的操作方法
2019/10/30 Python
Python如何实现邮件功能
2020/05/27 Python
美国顶级防滑鞋:Shoes For Crews
2017/03/27 全球购物
abstract class和interface有什么区别?
2012/01/03 面试题
J2ee常用的设计模式?说明工厂模式
2015/05/21 面试题
校园环保标语
2014/06/13 职场文书
小学清明节活动总结
2014/07/04 职场文书
抗洪救灾标语
2014/10/08 职场文书
退税申请报告怎么写
2015/05/18 职场文书
入党团支部推荐意见
2015/06/02 职场文书
详解Android中的TimePickerView(时间选择器)的用法
2022/04/30 Java/Android