Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
Dec 04 Python
详解Python的Django框架中的模版相关知识
Jul 15 Python
Python编程之Re模块下的函数介绍
Oct 28 Python
Python实现的寻找前5个默尼森数算法示例
Mar 25 Python
python求最大连续子数组的和
Jul 07 Python
python3爬虫获取html内容及各属性值的方法
Dec 17 Python
python把转列表为集合的方法
Jun 28 Python
python实现按行分割文件
Jul 22 Python
Python上下文管理器用法及实例解析
Nov 11 Python
Python3 mmap内存映射文件示例解析
Mar 23 Python
解决Django部署设置Debug=False时xadmin后台管理系统样式丢失
Apr 07 Python
详解python中的三种命令行模块(sys.argv,argparse,click)
Dec 15 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
解析php file_exists无效的解决办法
2013/06/26 PHP
php inc文件使用的风险和注意事项
2013/11/12 PHP
php使用CURL伪造IP和来源实例详解
2015/01/15 PHP
基于PHP技术开发客服工单系统
2016/01/06 PHP
php自动载入类用法实例分析
2016/06/24 PHP
准确获得页面、窗口高度及宽度的JS
2006/11/26 Javascript
JQuery一种取同级值的方式(比如你在GridView中)
2012/03/15 Javascript
如何使用jQuery技术开发ios风格的页面导航菜单
2015/07/29 Javascript
jquery实现全选、不选、反选的两种方法
2016/09/06 Javascript
bootstrap快速制作后台界面
2016/12/05 Javascript
JavaScript方法_动力节点Java学院整理
2017/06/28 Javascript
基于JavaScript实现瀑布流布局
2018/08/15 Javascript
vue中选项卡点击切换且能滑动切换功能的实现代码
2018/11/25 Javascript
用vuex写了一个购物车H5页面的示例代码
2018/12/04 Javascript
微信小程序时间轴实现方法示例
2019/01/14 Javascript
JavaScript变量提升和严格模式实例分析
2019/01/27 Javascript
Vue实现商品分类菜单数量提示功能
2019/07/26 Javascript
[49:08]Secret vs VP 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
windows系统下Python环境的搭建(Aptana Studio)
2017/03/06 Python
详解Python之数据序列化(json、pickle、shelve)
2017/03/30 Python
Python多层装饰器用法实例分析
2018/02/09 Python
利用Python如何批量修改数据库执行Sql文件
2018/07/29 Python
python的继承知识点总结
2018/12/10 Python
详解Django模版中加载静态文件配置方法
2019/07/21 Python
python支持多线程的爬虫实例
2019/12/21 Python
Django+python服务器部署与环境部署教程详解
2020/03/30 Python
Python是怎样处理json模块的
2020/07/16 Python
全球知名的婚恋交友网站:Match.com
2017/01/05 全球购物
英国领先的隐形眼镜在线供应商:Lenstore.co.uk
2019/11/24 全球购物
班主任经验交流会主持词
2014/04/01 职场文书
合作经营协议书范本
2014/04/17 职场文书
实习报告评语
2014/04/26 职场文书
职业道德模范事迹材料
2014/08/24 职场文书
2015年党支部书记工作总结
2015/05/21 职场文书
工作年限证明范本
2015/06/15 职场文书
Springboot配置suffix指定mvc视图的后缀方法
2021/07/03 Java/Android