Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3实现爬虫爬取赶集网列表功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取赶集网列表。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站前面关于python3安装与配置相关文章。

首先需要安装request和BeautifulSoup两个模块

request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作

pip install requests

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树

pip install beautifulsoup4

代码:

from urllib import request
from bs4 import BeautifulSoup
#构造头文件,模拟浏览器访问
url="http://xa.ganji.com/meirdjm/o2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
page = request.Request(url,headers=headers)
# 发送请求,获取内容
page_info = request.urlopen(page).read().decode('utf-8')
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 查找所有a标签中class='list-info-title'
titles = soup.find_all('a',class_="list-info-title")
# 打印抓取到的title
for title in titles:
 print(title.string)

结果:

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python greenlet实现原理和使用示例
Sep 24 Python
Python多进程同步简单实现代码
Apr 27 Python
python 读写中文json的实例详解
Oct 29 Python
python实现12306抢票及自动邮件发送提醒付款功能
Mar 08 Python
详解python里的命名规范
Jul 16 Python
Python Tkinter模块实现时钟功能应用示例
Jul 23 Python
使用11行Python代码盗取了室友的U盘内容
Oct 23 Python
对python中dict和json的区别详解
Dec 18 Python
用Python解决x的n次方问题
Feb 08 Python
python实现PID算法及测试的例子
Aug 08 Python
python实现的按要求生成手机号功能示例
Oct 08 Python
python selenium循环登陆网站的实现
Nov 04 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 #Python
python批量下载网站马拉松照片的完整步骤
Dec 05 #Python
解决python3中cv2读取中文路径的问题
Dec 05 #Python
利用Python求阴影部分的面积实例代码
Dec 05 #Python
python之cv2与图像的载入、显示和保存实例
Dec 05 #Python
You might like
无线电广播的开始
2002/01/30 无线电
DSP接收机前端设想
2021/03/02 无线电
最省空间的计数器
2006/10/09 PHP
在命令行下运行PHP脚本[带参数]的方法
2010/01/22 PHP
JavaScript 异步调用框架 (Part 6 - 实例 & 模式)
2009/08/04 Javascript
jQuery选择没有colspan属性的td的代码
2010/07/06 Javascript
jQuery 名称冲突的解决方法
2011/04/08 Javascript
基于jquery ajax 用户无刷新登录方法详解
2012/04/28 Javascript
枚举的实现求得1-1000所有出现1的数字并计算出现1的个数
2013/09/10 Javascript
验证码在IE中不刷新而谷歌等浏览器正常的解决方案
2014/03/18 Javascript
多个checkbox被选中时如何判断是否有自己想要的
2014/09/22 Javascript
JavaScript输出所选择起始与结束日期的方法
2017/07/12 Javascript
AngularJS实现的根据数量与单价计算总价功能示例
2017/12/26 Javascript
微信小程序列表中item左滑删除功能
2018/11/07 Javascript
JointJS JavaScript流程图绘制框架解析
2019/08/15 Javascript
JavaScript函数柯里化实现原理及过程
2020/12/02 Javascript
python使用xauth方式登录饭否网然后发消息
2014/04/11 Python
python网络编程学习笔记(九):数据库客户端 DB-API
2014/06/09 Python
浅谈Pandas:Series和DataFrame间的算术元素
2018/12/22 Python
python变量命名的7条建议
2019/07/04 Python
使用 Python 处理 JSON 格式的数据
2019/07/22 Python
python tkinter canvas使用实例
2019/11/04 Python
Django多数据库配置及逆向生成model教程
2020/03/28 Python
解决Django Haystack全文检索为空的问题
2020/05/19 Python
css3编写浏览器背景渐变背景色的方法
2018/03/05 HTML / CSS
CSS3实现淘宝留白的方法
2020/06/05 HTML / CSS
会计学财务管理专业个人的自我评价
2013/10/19 职场文书
创业计划书撰写原则
2014/01/25 职场文书
销售主管岗位职责
2014/02/08 职场文书
计算机专业毕业生求职信
2014/04/30 职场文书
红领巾心向党演讲稿
2014/09/10 职场文书
刑事辩护授权委托书格式
2014/10/13 职场文书
2015年化妆品销售工作总结
2015/05/11 职场文书
教师教育教学随笔
2015/08/15 职场文书
公司会议开幕词
2016/03/03 职场文书
Python爬虫基础讲解之请求
2021/05/13 Python