Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
python正则匹配抓取豆瓣电影链接和评论代码分享
Dec 27 Python
Python实现的简单万年历例子分享
Apr 25 Python
Python的ORM框架SQLAlchemy入门教程
Apr 28 Python
Python的爬虫程序编写框架Scrapy入门学习教程
Jul 02 Python
解决matplotlib库show()方法不显示图片的问题
May 24 Python
解决Pycharm后台indexing导致不能run的问题
Jun 27 Python
Python 实现训练集、测试集随机划分
Jan 08 Python
简单了解python filter、map、reduce的区别
Jan 14 Python
Django重设Admin密码过程解析
Feb 10 Python
Jupyter Notebook 文件默认目录的查看以及更改步骤
Apr 14 Python
Python+Appium实现自动抢微信红包
May 21 Python
Pytorch中Softmax和LogSoftmax的使用详解
Jun 05 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
php2html php生成静态页函数
2008/12/08 PHP
ThinkPHP框架里隐藏index.php
2016/04/12 PHP
PHP Include文件实例讲解
2019/02/15 PHP
DOM Scripting中的图片切换[兼容Firefox]
2010/06/12 Javascript
jQuery Ajax File Upload实例源码
2016/12/12 Javascript
JavaScript中splice与slice的区别
2017/05/09 Javascript
浅谈Vue SPA 首屏加载优化实践
2017/12/15 Javascript
JavaScript函数式编程(Functional Programming)声明式与命令式实例分析
2019/05/21 Javascript
微信小程序按顺序同步执行的两种方式
2019/12/20 Javascript
scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
2015/04/16 Python
Python pymongo模块常用操作分析
2018/09/01 Python
python之Flask实现简单登录功能的示例代码
2018/12/24 Python
简单了解django orm中介模型
2019/07/30 Python
Kears+Opencv实现简单人脸识别
2019/08/28 Python
Python求两个字符串最长公共子序列代码实例
2020/03/05 Python
python3读取autocad图形文件.py实例
2020/06/05 Python
Python项目跨域问题解决方案
2020/06/22 Python
Python3交互式shell ipython3安装及使用详解
2020/07/11 Python
手把手教你将Flask应用封装成Docker服务的实现
2020/08/19 Python
谈谈python垃圾回收机制
2020/09/27 Python
如何编写python的daemon程序
2021/01/07 Python
python-jwt用户认证食用教学的实现方法
2021/01/19 Python
tensorflow2.0教程之Keras快速入门
2021/02/20 Python
基于HTML5 FileSystem API的使用介绍
2013/04/24 HTML / CSS
体育教师自我鉴定
2014/02/12 职场文书
小学一年级学生评语
2014/04/22 职场文书
研修心得体会
2014/09/04 职场文书
八项规定个人对照检查材料思想汇报
2014/09/25 职场文书
幼儿园教师节感谢信
2015/01/23 职场文书
2015年电信员工工作总结
2015/05/26 职场文书
维护民族团结心得体会2016
2016/01/15 职场文书
2019个人半年工作总结
2019/06/21 职场文书
穷人该怎么创业?谨记以下几点
2019/07/11 职场文书
对Keras自带Loss Function的深入研究
2021/05/25 Python
漫画「古见同学有交流障碍症」第25卷封面公开
2022/03/21 日漫
如何用六步教会你使用python爬虫爬取数据
2022/04/06 Python