Python CSS选择器爬取京东网商品信息过程解析


Posted in Python onJune 01, 2020

CSS选择器

目前,除了官方文档之外,市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多,而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中,CCS选择器实际上是一把效率甚高的利器。虽然资料不多,但官方文档却十分详细,然而美中不足的是需要一定的基础才能看懂,而且没有小而精的演示实例。

Python CSS选择器爬取京东网商品信息过程解析

京东商品图

首先进入京东网,输入自己想要查询的商品,向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象,之后得到后面这一串网址:
https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8,其中参数的意思就是我们输入的keyword,在本例中该参数代表“狗粮”,具体详情可以参考Python大神用正则表达式教你搞定京东商品信息。所以,只要输入keyword这个参数之后,将其进行编码,就可以获取到目标URL。之后请求网页,得到响应,尔后利用CSS选择器进行下一步的数据采集。

商品信息在京东官网上的部分网页源码如下图所示:

Python CSS选择器爬取京东网商品信息过程解析

部分网页源码

仔细观察源码,可以发现我们所需的目标信息在红色框框的下面,那么接下来我们就要一层一层的去获取想要的信息。

在Python的urllib库中提供了quote方法,可以实现对URL的字符串进行编码,从而可以进入到对应的网页中去。

Python CSS选择器爬取京东网商品信息过程解析

CSS选择器在线复制

很多小伙伴都觉得CSS表达式很难写,其实掌握了基本的用法也就不难了。在线复制CSS表达式如上图所示,可以很方便的复制CSS表达式。但是通过该方法得到的CSS表达式放在程序中一般不能用,而且长的没法看。所以CSS表达式一般还是要自己亲自上手。

直接上代码,利用CSS去提取目标信息,如商品的名字、链接、图片和价格,具体的代码如下图所示:

Python CSS选择器爬取京东网商品信息过程解析

代码实现

如果你想快速的实现功能更强大的网络爬虫,那么BeautifulSoupCSS选择器将是你必备的利器之一。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中,对于熟悉CSS选择器语法的人,使用CSS选择器是个非常方便的方法。

最后得到的效果图如下所示:

Python CSS选择器爬取京东网商品信息过程解析

最终效果图

新鲜的狗粮再一次出炉咯~~~

Python CSS选择器爬取京东网商品信息过程解析

CSS选择器

关于CSS选择器的简单介绍:

BeautifulSoup支持大部分的CSS选择器。其语法为:向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回,即返回类型为list。

tag.select("string")

BeautifulSoup.select("string")

注意:在取得含有特定CSS属性的元素时,标签名不加任何修饰,如class类名前加点,id名前加 /#。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3读取UTF-8文件及统计文件行数的方法
May 22 Python
python读取TXT到数组及列表去重后按原来顺序排序的方法
Jun 26 Python
实例解析Python中的__new__特殊方法
Jun 02 Python
python列表使用实现名字管理系统
Jan 30 Python
python 实现返回一个列表中出现次数最多的元素方法
Jun 11 Python
详解Selenium+PhantomJS+python简单实现爬虫的功能
Jul 14 Python
python实现一个猜拳游戏
Apr 05 Python
Python+Selenium实现自动化的环境搭建的步骤(图文)
Sep 01 Python
Django中和时区相关的安全问题详解
Oct 12 Python
python中numpy数组与list相互转换实例方法
Jan 29 Python
解决tensorflow模型压缩的问题_踩坑无数,总算搞定
Mar 02 Python
用Python爬取英雄联盟的皮肤详细示例
Dec 06 Python
matlab、python中矩阵的互相导入导出方式
Jun 01 #Python
如何理解Python中的变量
Jun 01 #Python
pycharm实现print输出保存到txt文件
Jun 01 #Python
Python如何爬取qq音乐歌词到本地
Jun 01 #Python
pycharm sciview的图片另存为操作
Jun 01 #Python
Python利用Xpath选择器爬取京东网商品信息
Jun 01 #Python
Python用类实现扑克牌发牌的示例代码
Jun 01 #Python
You might like
PHP之uniqid()函数用法
2014/11/03 PHP
php实现用于计算执行时间的类实例
2015/04/18 PHP
php+ajax实现无刷新动态加载数据技术
2015/04/28 PHP
jQuery实现鼠标滑过遮罩并高亮显示效果
2013/07/16 Javascript
jquery ajax中使用jsonp的限制解决方法
2013/11/22 Javascript
纯js代码实现简单计算器
2015/12/02 Javascript
基于JavaScript判断浏览器到底是关闭还是刷新(超准确)
2016/02/01 Javascript
浅析$.getJSON异步请求和同步请求
2016/06/06 Javascript
详解使用Vue.Js结合Jquery Ajax加载数据的两种方式
2017/01/10 Javascript
微信小程序实现全国机场索引列表
2018/01/31 Javascript
vue.js实现标签页切换效果
2018/06/07 Javascript
Vuex模块化应用实践示例
2020/02/03 Javascript
vue 单页应用和多页应用的优劣
2020/10/22 Javascript
Python 随机生成中文验证码的实例代码
2013/03/20 Python
python通过ssh-powershell监控windows的方法
2015/06/02 Python
python实现将英文单词表示的数字转换成阿拉伯数字的方法
2015/07/02 Python
python简单分割文件的方法
2015/07/30 Python
Python中顺序表的实现简单代码分享
2018/01/09 Python
python Opencv将图片转为字符画
2021/02/19 Python
python 编码规范整理
2018/05/05 Python
用python拟合等角螺线的实现示例
2019/12/27 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Python爬虫之Selenium库的使用方法
2021/01/03 Python
HTML5 canvas基本绘图之绘制阴影效果
2016/06/27 HTML / CSS
毕业实习评语
2014/02/10 职场文书
送餐员岗位职责范本
2014/02/21 职场文书
设计顾问服务计划书
2014/05/04 职场文书
完美的中文自荐信
2014/05/24 职场文书
十一国庆节“向国旗敬礼”主题班会活动方案
2014/09/27 职场文书
教师三严三实心得体会
2014/10/11 职场文书
幼儿学前班评语
2014/12/29 职场文书
2015年先进个人自荐书
2015/03/24 职场文书
《秋天的图画》教学反思
2016/02/19 职场文书
Python+Tkinter打造签名设计工具
2022/04/01 Python
CentOS7安装MySQL8的超级详细教程(无坑!)
2022/06/10 Servers
使用scrapy实现增量式爬取方式
2022/06/21 Python