Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python卸载模块的方法汇总
Jun 07 Python
Python数据结构与算法之常见的分配排序法示例【桶排序与基数排序】
Dec 15 Python
Pandas GroupBy对象 索引与迭代方法
Nov 16 Python
用Python中的turtle模块画图两只小羊方法
Apr 09 Python
浅析Python 实现一个自动化翻译和替换的工具
Apr 14 Python
python面试题Python2.x和Python3.x的区别
May 28 Python
Python字符串格式化输出代码实例
Nov 22 Python
python如何获取apk的packagename和activity
Jan 10 Python
新建文件时Pycharm中自动设置头部模板信息的方法
Apr 17 Python
基于注解实现 SpringBoot 接口防刷的方法
Mar 02 Python
PyTorch 如何设置随机数种子使结果可复现
May 12 Python
ROS系统将python包编译为可执行文件的简单步骤
Jul 25 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
国内php原创论坛
2006/10/09 PHP
php日历[测试通过]
2008/03/27 PHP
phpmyadmin安装时提示:Warning: require_once(./libraries/common.inc.php)错误解决办法
2011/08/18 PHP
深入解析PHP中foreach语句控制数组循环的用法
2015/11/30 PHP
PHP使用OB缓存实现静态化功能示例
2019/03/23 PHP
thinkPHP5框架实现多数据库连接,跨数据连接查询操作示例
2019/05/29 PHP
js 分页全选或反选标识实现代码
2011/08/09 Javascript
jQuery判断密码强度实现思路及代码
2013/04/24 Javascript
将form表单中的元素转换成对象的方法适用表单提交
2014/05/02 Javascript
移除AngularJS下URL中的#字符的方法
2015/06/19 Javascript
Jquery Mobile 自定义按钮图标
2015/11/18 Javascript
利用Js+Css实现折纸动态导航效果实例源码
2017/01/25 Javascript
ztree实现权限横向显示功能
2017/05/20 Javascript
Angular7.2.7路由使用初体验
2019/03/01 Javascript
使用zrender.js绘制体温单效果
2019/10/31 Javascript
vue 添加和编辑用同一个表单,el-form表单提交后清空表单数据操作
2020/08/03 Javascript
python批量实现Word文件转换为PDF文件
2018/03/15 Python
python 请求服务器的实现代码(http请求和https请求)
2018/05/25 Python
pycharm 配置远程解释器的方法
2018/10/28 Python
python 实现分页显示从es中获取的数据方法
2018/12/26 Python
对python中的os.getpid()和os.fork()函数详解
2019/08/08 Python
python-docx文件定位读取过程(尝试替换)
2020/02/13 Python
Python接口测试环境搭建过程详解
2020/06/29 Python
Python Selenium实现无可视化界面过程解析
2020/08/25 Python
基于CSS3的CSS 多栏(Multi-column)实现瀑布流源码分享
2014/06/11 HTML / CSS
您的健身减肥和健康饮食专家:vitafy
2017/06/06 全球购物
健身场所或家用健身设备:Life Fitness
2017/11/01 全球购物
干部行政关系介绍信
2014/01/17 职场文书
十八届三中全会报告学习材料
2014/02/17 职场文书
公司经理聘任书
2014/03/29 职场文书
慰问信模板
2015/02/14 职场文书
GoLang中生成UUID唯一标识的实现
2021/05/08 Golang
教你怎么用Python操作MySql数据库
2021/05/31 Python
总结几个非常实用的Python库
2021/06/26 Python
Javascript 解构赋值详情
2021/11/17 Javascript
ubuntu端向日葵键盘输入卡顿问题及解决
2022/12/24 Servers