Python爬取京东的商品分类与链接


Posted in Python onAugust 26, 2016

前言

本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

Python爬取京东的商品分类与链接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()

运行这段代码以及达到了我们的目的。

Python爬取京东的商品分类与链接

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候,我们就要定位元素,来获取我们需要的东西了。

在浏览器中通过F12,我们可以看到下图所示的东西:

Python爬取京东的商品分类与链接

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。

最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。以上就是我利用Python爬取京东的商品分类与链接的一些经验,希望对大家学习python能有所帮助。

Python 相关文章推荐
Python模拟登录验证码(代码简单)
Feb 06 Python
Python的Flask框架中的Jinja2模板引擎学习教程
Jun 30 Python
快速实现基于Python的微信聊天机器人示例代码
Mar 03 Python
python 数据的清理行为实例详解
Jul 12 Python
Python中函数eval和ast.literal_eval的区别详解
Aug 10 Python
通过Python实现自动填写调查问卷
Sep 06 Python
在PyCharm中控制台输出日志分层级分颜色显示的方法
Jul 11 Python
Django 反向生成url实例详解
Jul 30 Python
在Python IDLE 下调用anaconda中的库教程
Mar 09 Python
QML用PathView实现轮播图
Jun 03 Python
使用tensorflow根据输入更改tensor shape
Jun 23 Python
Python 实现一个简单的web服务器
Jan 03 Python
Python设计模式之抽象工厂模式
Aug 25 #Python
简单谈谈python中的Queue与多进程
Aug 25 #Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 #Python
巧用python和libnmapd,提取Nmap扫描结果
Aug 23 #Python
Python中属性和描述符的正确使用
Aug 23 #Python
Python实现基本线性数据结构
Aug 22 #Python
Python进行数据提取的方法总结
Aug 22 #Python
You might like
php使用Jpgraph创建柱状图展示年度收支表效果示例
2017/02/15 PHP
PHP基于ICU扩展intl快速实现汉字转拼音及按拼音首字母分组排序的方法
2017/05/03 PHP
PHP实现微信申请退款功能
2018/10/01 PHP
JavaScript 对象模型 执行模型
2009/12/06 Javascript
Javascript 实现TreeView CheckBox全选效果
2010/01/11 Javascript
基于JavaScript自定义构造函数的详解说明
2013/04/24 Javascript
用jquery中插件dialog实现弹框效果实例代码
2013/11/15 Javascript
以JSON形式将JS中Array对象数组传至后台的方法
2014/01/06 Javascript
JS脚本实现动态给标签控件添加事件的方法
2016/06/02 Javascript
js鼠标单击和双击事件冲突问题的快速解决方法
2016/07/11 Javascript
JS自定义混合Mixin函数示例
2016/11/26 Javascript
很棒的一组js图片轮播特效
2017/01/12 Javascript
解决Layui 表单提交数据为空的问题
2018/08/15 Javascript
开发用到的js封装方法(20种)
2018/10/12 Javascript
jQuery基于随机数解决中午吃什么去哪吃问题示例
2018/12/29 jQuery
vue计算属性computed的使用方法示例
2019/03/13 Javascript
vue中watch和computed为什么能监听到数据的改变以及不同之处
2019/12/27 Javascript
微信小程序利用button控制条件标签的变量问题
2020/03/15 Javascript
javascript执行上下文、变量对象实例分析
2020/04/25 Javascript
Nuxt的动态路由和参数校验操作
2020/11/09 Javascript
Python导出数据到Excel可读取的CSV文件的方法
2015/05/12 Python
Django日志模块logging的配置详解
2017/02/14 Python
对numpy中的transpose和swapaxes函数详解
2018/08/02 Python
python调用摄像头拍摄数据集
2019/06/01 Python
Python中使用双下划线防止类属性被覆盖问题
2019/06/27 Python
简单了解python的一些位运算技巧
2019/07/13 Python
Python Numpy数组扩展repeat和tile使用实例解析
2019/12/09 Python
python:批量统计xml中各类目标的数量案例
2020/03/10 Python
python 等差数列末项计算方式
2020/05/03 Python
python爬虫 requests-html的使用
2020/11/30 Python
小学校园活动策划
2014/01/30 职场文书
租房协议书
2014/04/10 职场文书
社区先进事迹材料
2014/05/19 职场文书
党干部专题民主生活会对照检查材料思想汇报
2014/10/06 职场文书
销售业务员岗位职责
2015/02/13 职场文书
大学生求职意向书
2015/05/11 职场文书