Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
Python标准库与第三方库详解
Jul 22 Python
numpy 进行数组拼接,分别在行和列上合并的实例
May 08 Python
tensorflow 获取变量&打印权值的实例讲解
Jun 14 Python
Python用于学习重要算法的模块pygorithm实例浅析
Aug 16 Python
Python OpenCV实现鼠标画框效果
Aug 19 Python
python实现智能语音天气预报
Dec 02 Python
django实现后台显示媒体文件
Apr 07 Python
Python Django form 组件动态从数据库取choices数据实例
May 19 Python
UI自动化定位常用实现方法代码示例
Oct 27 Python
python中把元组转换为namedtuple方法
Dec 09 Python
关于python中remove的一些坑小结
Jan 04 Python
Python中npy和mat文件的保存与读取
Apr 24 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
虫族 ZERG 概述
2020/03/14 星际争霸
一些php技巧与注意事项分析
2011/02/03 PHP
php中用加号与用array_merge合并数组的区别深入分析
2013/06/03 PHP
javascript setTimeout()传递函数参数(包括传递对象参数)
2010/04/07 Javascript
JS中批量给元素绑定事件过程中的相关问题使用闭包解决
2013/04/15 Javascript
jquery获取tr并更改tr内容示例代码
2014/02/13 Javascript
jQuery修改class属性和CSS样式整理
2015/01/30 Javascript
JavaScript获取指定元素位置的方法
2015/04/08 Javascript
jquery之别踩白块游戏的简单实现
2016/07/25 Javascript
AngularJS入门教程之更多模板详解
2016/08/19 Javascript
javascript DOM的详解及实例代码
2017/03/06 Javascript
原生JavaScript实现的简单省市县三级联动功能示例
2017/05/27 Javascript
Nodejs+express+ejs简单使用实例代码
2017/09/18 NodeJs
Vue组件之全局组件与局部组件的使用详解
2017/10/09 Javascript
vue router自动判断左右翻页转场动画效果
2017/10/10 Javascript
js取小数点后两位四种方法
2019/01/18 Javascript
JavaScript实现美化滑块效果
2019/05/17 Javascript
vue实现移动端项目多行文本溢出省略
2020/07/29 Javascript
详解vue中使用transition和animation的实例代码
2020/12/12 Vue.js
Python中的条件判断语句与循环语句用法小结
2016/03/21 Python
Python数据可视化编程通过Matplotlib创建散点图代码示例
2017/12/09 Python
Python中的字符串切片(截取字符串)的详解
2019/05/15 Python
python错误调试及单元文档测试过程解析
2019/12/19 Python
Python StringIO如何在内存中读写str
2020/01/07 Python
python logging通过json文件配置的步骤
2020/04/27 Python
学习python需要有编程基础吗
2020/06/02 Python
Django用户登录与注册系统的实现示例
2020/06/03 Python
python中用Scrapy实现定时爬虫的实例讲解
2021/01/18 Python
web页面录屏实现
2019/02/12 HTML / CSS
如何用PHP实现邮件发送
2012/12/26 面试题
自荐信不宜过于夸大
2013/11/06 职场文书
自主招生自荐信范文
2013/12/04 职场文书
施工人员岗位职责
2013/12/12 职场文书
物业品质提升方案
2014/06/08 职场文书
学生逃课万能检讨书2000字
2015/02/17 职场文书
结婚十年感言
2015/07/31 职场文书