Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python多线程操作实例
Nov 21 Python
python实现类的静态变量用法实例
May 08 Python
Python实现查找字符串数组最长公共前缀示例
Mar 27 Python
Ubuntu18.04下python版本完美切换的解决方法
Jun 14 Python
使用pandas读取文件的实现
Jul 31 Python
python django生成迁移文件的实例
Aug 31 Python
python+Django+pycharm+mysql 搭建首个web项目详解
Nov 29 Python
python 串口读取+存储+输出处理实例
Dec 26 Python
Python使用turtle库绘制小猪佩奇(实例代码)
Jan 16 Python
opencv中图像叠加/图像融合/按位操作的实现
Apr 01 Python
解决django 向mysql中写入中文字符出错的问题
May 18 Python
keras-siamese用自己的数据集实现详解
Jun 10 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
PHP操作文件方法问答
2007/03/16 PHP
PHP程序员面试 切忌急功近利(更需要注重以后的发展)
2010/09/01 PHP
php DOS攻击实现代码(附如何防范)
2012/05/29 PHP
php定时计划任务与fsockopen持续进程实例
2014/05/23 PHP
PHP将字符分解为多个字符串的方法
2014/11/22 PHP
php redis实现文章发布系统(用户投票系统)
2017/03/04 PHP
PHP实现基于栈的后缀表达式求值功能
2017/11/10 PHP
thinkPHP框架实现的无限回复评论功能示例
2018/06/09 PHP
JQuery Tips(3) 关于$()包装集内元素的改变
2009/12/14 Javascript
如何使用jquery easyui创建标签组件
2015/11/18 Javascript
无需 Flash 使用 jQuery 复制文字到剪贴板
2016/04/26 Javascript
js转html实体的方法
2016/09/27 Javascript
JS控件bootstrap datepicker使用方法详解
2017/03/25 Javascript
JavaScript之json_动力节点Java学院整理
2017/06/29 Javascript
JS实现前端缓存的方法
2017/09/21 Javascript
微信小程序如何获取手机验证码
2018/11/04 Javascript
详解为生产环境编译Angular2应用的方法
2018/12/10 Javascript
[04:37]DOTA2英雄梦之声Vol20发条
2014/06/20 DOTA
[51:26]DOTA2上海特级锦标赛主赛事日 - 2 胜者组第一轮#3Secret VS OG第二局
2016/03/03 DOTA
[08:47]2018国际邀请赛 OG战队举杯时刻
2018/08/29 DOTA
在Python 2.7即将停止支持时,我们为你带来了一份python 3.x迁移指南
2018/01/30 Python
python进行两个表格对比的方法
2018/06/27 Python
面向初学者的Python编辑器Mu
2018/10/08 Python
python异步Web框架sanic的实现
2020/04/27 Python
keras 读取多标签图像数据方式
2020/06/12 Python
五分钟学会怎么用python做一个简单的贪吃蛇
2021/01/12 Python
全网最细 Python 格式化输出用法讲解(推荐)
2021/01/18 Python
伦敦一家西班牙童装精品店:La Coqueta
2018/02/02 全球购物
荟萃全球保健品:维他购
2018/05/09 全球购物
教师党员个人整改措施材料
2014/09/16 职场文书
个人先进材料范文
2014/12/30 职场文书
2015年双拥工作总结
2015/04/08 职场文书
秋季运动会加油词
2015/07/18 职场文书
大学生,三分钟即兴演讲稿
2019/07/22 职场文书
导游词之无锡梅园
2019/11/28 职场文书
Nginx如何配置Http、Https、WS、WSS的方法步骤
2021/05/11 Servers