Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
python socket 超时设置 errno 10054
Jul 01 Python
Python如何获取系统iops示例代码
Sep 06 Python
python的scikit-learn将特征转成one-hot特征的方法
Jul 10 Python
详谈Python 窗体(tkinter)表格数据(Treeview)
Oct 11 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 Python
python3 写一个WAV音频文件播放器的代码
Sep 27 Python
python 矢量数据转栅格数据代码实例
Sep 30 Python
django ORM之values和annotate使用详解
May 19 Python
Scrapy模拟登录赶集网的实现代码
Jul 07 Python
用 Django 开发一个 Python Web API的方法步骤
Dec 03 Python
python 调用Google翻译接口的方法
Dec 09 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
建站常用13种PHP开源CMS比较
2009/08/23 PHP
php删除与复制文件夹及其文件夹下所有文件的实现代码
2013/01/23 PHP
PHP中配置IIS7实现基本身份验证的方法
2015/09/24 PHP
深入理解PHP类的自动载入机制
2016/09/16 PHP
PHP使用Redis实现Session共享的实现示例
2019/05/12 PHP
限制文本字节数js代码
2007/03/06 Javascript
JQuery 插件模板 制作jquery插件的朋友可以参考下
2010/03/17 Javascript
javscript对象原型的一些看法
2010/09/19 Javascript
JS中Iframe之间传值及子页面与父页面应用
2013/03/11 Javascript
关于eval 与new Function 到底该选哪个?
2013/04/17 Javascript
JavaScript通过select动态更换图片的方法
2015/03/23 Javascript
JavaScript实现搜索框的自动完成功能(一)
2016/02/25 Javascript
小发现之浅谈location.search与location.hash的问题
2017/06/23 Javascript
vue移动端下拉刷新和上拉加载的实现代码
2018/09/08 Javascript
Node.js的进程管理的深入理解
2019/01/09 Javascript
基于AngularJS拖拽插件ngDraggable.js实现拖拽排序功能
2019/04/02 Javascript
详解JavaScript的变量
2019/04/04 Javascript
jquery-ui 进度条功能示例【测试可用】
2019/07/25 jQuery
Vue 中使用富文本编译器wangEditor3的方法
2019/09/26 Javascript
element-ui 本地化使用教程详解
2019/10/28 Javascript
Python对象的深拷贝和浅拷贝详解
2014/08/25 Python
python引入不同文件夹下的自定义模块方法
2018/10/27 Python
Python 正则表达式 re.match/re.search/re.sub的使用解析
2019/07/22 Python
Python绘图实现显示中文
2019/12/04 Python
python实现高斯判别分析算法的例子
2019/12/09 Python
python 深度学习中的4种激活函数
2020/09/18 Python
科颜氏美国官网:Kiehl’s美国
2017/01/31 全球购物
意大利制造的男鞋和女鞋:SCAROSSO
2018/03/07 全球购物
仓库班组长岗位职责
2013/12/12 职场文书
大学生志愿者感言
2014/01/15 职场文书
洗发露广告词
2014/03/14 职场文书
乡镇干部个人对照检查材料(群众路线)
2014/09/26 职场文书
师德师风培训感言
2015/08/03 职场文书
Python基础教程,Python入门教程(超详细)
2021/06/24 Python
sql server 累计求和实现代码
2022/02/28 SQL Server
天谕手游15杯全调酒配方和调酒券的获得方式
2022/04/06 其他游戏