Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
Python算术运算符实例详解
May 31 Python
Python实现扩展内置类型的方法分析
Oct 16 Python
Python遍历pandas数据方法总结
Feb 09 Python
python3爬取淘宝信息代码分析
Feb 10 Python
python实现数据库跨服务器迁移
Apr 12 Python
python3+PyQt5重新实现自定义数据拖放处理
Apr 19 Python
Python从单元素字典中获取key和value的实例
Dec 31 Python
pycharm new project变成灰色的解决方法
Jun 27 Python
对django 模型 unique together的示例讲解
Aug 06 Python
python实发邮件实例详解
Nov 11 Python
Python实现多线程下载脚本的示例代码
Apr 03 Python
python绘制雷达图实例讲解
Jan 03 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
php readfile下载大文件失败的解决方法
2017/05/22 PHP
使用laravel的Eloquent模型如何获取数据库的指定列
2019/10/17 PHP
JavaScript小技巧 2.5 则
2010/09/12 Javascript
jquery.post用法示例代码
2014/01/03 Javascript
jquery的attr方法禁用表单元素禁用输入内容
2014/06/23 Javascript
jQuery控制的不同方向的滑动(向左、向右滑动等)
2014/07/18 Javascript
JavaScript中跨域调用Flash的方法
2014/08/11 Javascript
jQuery插件datalist实现很好看的input下拉列表
2015/07/14 Javascript
js实现获取当前时间是本月第几周的方法
2015/08/11 Javascript
第九篇Bootstrap导航菜单创建步骤详解
2016/06/21 Javascript
AngularJS入门教程之链接与图片模板详解
2016/08/19 Javascript
jQuery Easyui加载表格出错时在表格中间显示自定义的提示内容
2016/12/08 Javascript
基于JavaScript实现无缝滚动效果
2017/07/21 Javascript
js实现随机点名小功能
2017/08/17 Javascript
jQuery实现动态显示select下拉列表数据的方法
2018/02/05 jQuery
Angular模版驱动表单的使用总结
2018/05/05 Javascript
jQuery实现模拟搜索引擎的智能提示功能简单示例
2019/01/27 jQuery
vue中keep-alive内置组件缓存的实例代码
2020/04/16 Javascript
[05:24]TI9采访——教练
2019/08/24 DOTA
Python的Flask框架中实现简单的登录功能的教程
2015/04/20 Python
老生常谈Python序列化和反序列化
2017/06/28 Python
详解python多线程、锁、event事件机制的简单使用
2018/04/27 Python
Python下使用Scrapy爬取网页内容的实例
2018/05/21 Python
jupyter notebook读取/导出文件/图片实例
2020/04/16 Python
基于Python的自媒体小助手---登录页面的实现代码
2020/06/29 Python
Tensorflow使用Anaconda、pycharm安装记录
2020/07/29 Python
HTML5中微数据概述及在搜索引擎中的使用举例
2013/02/07 HTML / CSS
使用phonegap获取设备的一些信息方法
2017/03/31 HTML / CSS
法国珠宝店:CLEOR
2017/01/29 全球购物
美国最大的农村生活方式零售店:Tractor Supply Company(TSC)
2017/05/15 全球购物
初中英语教学反思
2014/01/25 职场文书
银行求职信
2014/05/31 职场文书
企业宣传工作方案
2014/06/02 职场文书
环境保护与污染治理求职信
2014/07/16 职场文书
关于观后感的作文
2015/06/18 职场文书
安全生产标语口号
2015/12/26 职场文书